Hy-MT1.5-1.8B-1.25bit:腾讯混元开源的1.25bit极致量化离线多语言翻译模型
一、Hy-MT1.5-1.8B-1.25bit 是什么
Hy-MT1.5-1.8B-1.25bit 是由腾讯混元团队联合 AngelSlim 共同推出的超轻量化端侧离线多语言翻译大模型,基于腾讯原生 HY-MT1.5-1.8B 翻译底座模型,采用自研 Sherry 三值量化算法完成 1.25bit 极致量化压缩,是专为低端手机、轻薄电脑、嵌入式设备等低资源硬件打造的离线AI翻译解决方案。
该模型打破了传统大翻译模型体积大、依赖云端、占用硬件资源高的痛点,在仅440MB极小体积下,保留近乎原版大模型的翻译精度,支持数十种主流语言与方言互译,全程无网络、不上传数据、本地离线运算,完美适配隐私化、端侧化的翻译使用需求,也是目前开源领域同等参数下压缩率最高、翻译效果最优的离线翻译模型之一。
二、功能特色
全语种海量互译
支持33种主流国际语言+5种国内方言及少数民族语言,覆盖1056个双向翻译方向,日常商务、留学、跨境沟通、方言转换场景全覆盖。极致轻量化体积
原模型FP16版本体积高达3.3GB,经1.25bit量化后压缩至440MB,普通手机、老旧电脑均可轻松装载部署。无损高精度翻译
依托Sherry细粒度稀疏量化技术,压缩后翻译精度损耗极低,翻译流畅度、语义理解能力超越同量级开源小模型,媲美主流商用翻译接口。纯离线隐私运行
全程本地CPU运算,无需联网、不采集用户文本数据,翻译内容仅留存设备本地,彻底杜绝隐私泄露风险。端侧硬件深度适配
针对手机ARM架构、CPU SIMD指令集做专项优化,安卓移动端可流畅后台运行,支持跨应用取词、弹窗实时翻译。多格式开源兼容
原生权重同步提供GGUF标准格式,兼容llama.cpp、Ollama、本地AI工具箱等主流部署框架,一键导入即可使用。自带落地应用Demo
官方提供安卓APK安装包,开箱即用,无需复杂部署配置,普通用户也能直接上手离线翻译。
三、技术细节
基础模型底座
底层基于腾讯自研 HY-MT1.5-1.8B 18亿参数通用翻译大模型,基座模型经过海量多语言语料训练,具备强泛化语义理解、长句语境连贯翻译能力。核心量化算法 Sherry
采用ACL收录的Sherry硬件友好型三值量化算法,创新实现4个权重压缩为5bit,等效达到1.25bit超低比特量化标准;采用3:4细粒度稀疏策略,每4个模型权重保留3个核心有效值、1个冗余权重置零,在大幅缩减体积的同时锁住核心翻译能力。架构与指令优化
深度适配移动端ARM架构,对齐SIMD并行指令,优化推理调度逻辑,降低CPU占用与功耗,低端安卓手机也能实现毫秒级翻译响应。模型格式支持
开源发布原生量化权重 + GGUF通用量化格式,适配本地大模型部署全生态,支持本地推理、二次微调、嵌入第三方应用集成开发。推理运行机制
采用端侧本地自回归推理模式,输入文本仅在设备内部完成编码、语义解析、翻译生成,无云端数据交互,从底层保障数据隐私安全。

四、应用场景
个人日常离线翻译
出国旅游、境外无网络环境下的菜单、路牌、对话实时翻译,无需依赖流量和云端服务。隐私办公商务翻译
企业涉密文档、商务合同、内部邮件本地翻译,避免敏感文本上传云端造成信息泄露。移动端跨应用取词
手机阅读外文文章、浏览跨境网站、外文APP时,后台悬浮取词一键翻译,沉浸式使用无阻隔。方言与少数民族语言转换
支持国内多地方言、少数民族语言互译,助力地域文化沟通、基层政务沟通场景落地。嵌入式设备集成
智能音箱、翻译机、工业嵌入式终端、车载设备二次开发,低成本嵌入离线翻译能力。教育学习辅助
学生外语阅读、课文翻译、单词长句解析,离线使用无广告、无内容推送干扰。
五、使用方法
1. 普通用户快速使用
直接下载官方提供的安卓APK安装包,安装后打开APP,无需注册登录,选择翻译语种,输入或粘贴文本即可实时离线翻译;支持开启后台悬浮窗,实现跨应用取词翻译。
2. 开发者本地部署使用
环境准备
安装Python基础环境及llama.cpp、transformers等依赖库。
GGUF模型调用示例代码
from llama_cpp import Llama # 加载Hy-MT1.5-1.8B-1.25bit GGUF模型 llm = Llama( model_path="./Hy-MT1.5-1.8B-1.25bit.Q2_K.gguf", n_ctx=2048, n_threads=8 ) # 执行离线翻译 prompt = "翻译成中文:Hello everyone, welcome to China." output = llm.create_completion(prompt=prompt, max_tokens=512) print(output['choices'][0]['text'])
部署步骤
访问HuggingFace项目地址下载GGUF格式模型文件;
配置本地推理框架环境;
加载模型并设置上下文窗口、线程数参数;
构造翻译提示词,即可实现批量、单次文本翻译。
六、竞品对比
选取市面上主流两款离线翻译开源模型做横向对比:
| 对比维度 | Hy-MT1.5-1.8B-1.25bit | 开源离线翻译模型MT5-small | Llama2-7B翻译微调版 |
|---|---|---|---|
| 模型参数量 | 1.8B | 0.3B | 7B |
| 量化体积 | 440MB | 680MB | 3.8GB |
| 量化规格 | 1.25bit极致量化 | 8bit常规量化 | 4bit量化 |
| 支持翻译语种 | 33种+5种方言 | 15种主流语言 | 20种主流语言 |
| 端侧适配性 | 手机CPU原生优化 | 仅电脑端流畅 | 低端设备无法运行 |
| 翻译精度 | 接近原生大模型 | 短句尚可、长句语义偏差 | 精度优秀但硬件门槛高 |
| 开源部署难度 | 低,支持GGUF一键部署 | 中等 | 高,配置要求复杂 |
对比总结:Hy-MT1.5-1.8B-1.25bit 在参数量、体积、语种覆盖、硬件适配上全面占优,相比MT5-small精度更强、语种更多;相比Llama2-7B微调版体积缩小数倍,低配设备也能流畅运行,兼顾轻量化与高精度。
七、常见问题解答
问:1.25bit量化会不会严重降低翻译准确率?
答:不会。项目采用自研Sherry细粒度稀疏三值量化算法,通过保留核心权重、剔除冗余参数的方式,把精度损耗控制在极小范围,日常短句、长句、商务文本翻译效果和原版1.8B模型几乎无差别。
问:该模型只能在安卓手机上使用吗?
答:不是。除了安卓官方Demo,模型GGUF格式可在Windows、Mac、国产Linux电脑,以及嵌入式ARM设备、本地AI工具箱中部署使用,适配多终端设备。
问:使用过程中需要联网吗?会上传翻译内容吗?
答:全程纯本地离线运行,无需连接任何网络,所有翻译文本仅在用户设备内处理,不会上传至云端或第三方服务器,隐私性极强。
问:有没有办法把模型集成到自己的APP或小程序里?
答:可以。项目开源权重支持二次开发,开发者可基于GGUF格式接入安卓、PC、嵌入式项目,封装成自有翻译功能模块,无商用授权限制。
问:低配老旧手机能不能流畅运行该模型?
答:可以。模型针对手机ARM架构和SIMD指令做了深度优化,千元级入门安卓机、老旧机型均可正常加载,翻译响应速度稳定,不会出现卡顿闪退。
八、相关链接
HuggingFace 项目主页:https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
AngelSlim 官方开源库主页:https://huggingface.co/AngelSlim
腾讯混元HY-MT1.5基座模型主页:https://huggingface.co/tencent/HY-MT1.5-1.8B
九、总结
Hy-MT1.5-1.8B-1.25bit 是腾讯混元与AngelSlim联合打造的一款兼顾超小体积、高精度、全离线、多终端适配的开源多语言翻译模型,依托1.25bit极致量化技术实现440MB轻量化存储,覆盖上百种翻译语言方向,既普通用户可通过安卓APK开箱即用实现离线翻译,也能满足开发者二次部署、嵌入式集成、办公隐私翻译等多元需求,相比传统开源翻译模型具备体积更小、适配更广、精度更高的综合优势,是低资源硬件端侧离线翻译场景下高性价比的开源解决方案。
版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/hy-mt1-5-1-8b-1-25bit.html

