Hy-MT1.5-1.8B-1.25bit：腾讯混元开源的1.25bit极致量化离线多语言翻译模型

原创发布日期：2026-05-07

一、Hy-MT1.5-1.8B-1.25bit 是什么

Hy-MT1.5-1.8B-1.25bit 是由腾讯混元团队联合 AngelSlim 共同推出的超轻量化端侧离线多语言翻译大模型，基于腾讯原生 HY-MT1.5-1.8B 翻译底座模型，采用自研 Sherry 三值量化算法完成 1.25bit 极致量化压缩，是专为低端手机、轻薄电脑、嵌入式设备等低资源硬件打造的离线AI翻译解决方案。

该模型打破了传统大翻译模型体积大、依赖云端、占用硬件资源高的痛点，在仅440MB极小体积下，保留近乎原版大模型的翻译精度，支持数十种主流语言与方言互译，全程无网络、不上传数据、本地离线运算，完美适配隐私化、端侧化的翻译使用需求，也是目前开源领域同等参数下压缩率最高、翻译效果最优的离线翻译模型之一。

二、功能特色

全语种海量互译
支持33种主流国际语言+5种国内方言及少数民族语言，覆盖1056个双向翻译方向，日常商务、留学、跨境沟通、方言转换场景全覆盖。
极致轻量化体积
原模型FP16版本体积高达3.3GB，经1.25bit量化后压缩至440MB，普通手机、老旧电脑均可轻松装载部署。
无损高精度翻译
依托Sherry细粒度稀疏量化技术，压缩后翻译精度损耗极低，翻译流畅度、语义理解能力超越同量级开源小模型，媲美主流商用翻译接口。
纯离线隐私运行
全程本地CPU运算，无需联网、不采集用户文本数据，翻译内容仅留存设备本地，彻底杜绝隐私泄露风险。
端侧硬件深度适配
针对手机ARM架构、CPU SIMD指令集做专项优化，安卓移动端可流畅后台运行，支持跨应用取词、弹窗实时翻译。
多格式开源兼容
原生权重同步提供GGUF标准格式，兼容llama.cpp、Ollama、本地AI工具箱等主流部署框架，一键导入即可使用。
自带落地应用Demo
官方提供安卓APK安装包，开箱即用，无需复杂部署配置，普通用户也能直接上手离线翻译。

三、技术细节

基础模型底座
底层基于腾讯自研 HY-MT1.5-1.8B 18亿参数通用翻译大模型，基座模型经过海量多语言语料训练，具备强泛化语义理解、长句语境连贯翻译能力。
核心量化算法 Sherry
采用ACL收录的Sherry硬件友好型三值量化算法，创新实现4个权重压缩为5bit，等效达到1.25bit超低比特量化标准；采用3:4细粒度稀疏策略，每4个模型权重保留3个核心有效值、1个冗余权重置零，在大幅缩减体积的同时锁住核心翻译能力。
架构与指令优化
深度适配移动端ARM架构，对齐SIMD并行指令，优化推理调度逻辑，降低CPU占用与功耗，低端安卓手机也能实现毫秒级翻译响应。
模型格式支持
开源发布原生量化权重 + GGUF通用量化格式，适配本地大模型部署全生态，支持本地推理、二次微调、嵌入第三方应用集成开发。
推理运行机制
采用端侧本地自回归推理模式，输入文本仅在设备内部完成编码、语义解析、翻译生成，无云端数据交互，从底层保障数据隐私安全。

Hy-MT1.5-1.8B-1.25bit：腾讯混元开源的1.25bit极致量化离线多语言翻译模型

四、应用场景

个人日常离线翻译
出国旅游、境外无网络环境下的菜单、路牌、对话实时翻译，无需依赖流量和云端服务。
隐私办公商务翻译
企业涉密文档、商务合同、内部邮件本地翻译，避免敏感文本上传云端造成信息泄露。
移动端跨应用取词
手机阅读外文文章、浏览跨境网站、外文APP时，后台悬浮取词一键翻译，沉浸式使用无阻隔。
方言与少数民族语言转换
支持国内多地方言、少数民族语言互译，助力地域文化沟通、基层政务沟通场景落地。
嵌入式设备集成
智能音箱、翻译机、工业嵌入式终端、车载设备二次开发，低成本嵌入离线翻译能力。
教育学习辅助
学生外语阅读、课文翻译、单词长句解析，离线使用无广告、无内容推送干扰。

五、使用方法

1. 普通用户快速使用

直接下载官方提供的安卓APK安装包，安装后打开APP，无需注册登录，选择翻译语种，输入或粘贴文本即可实时离线翻译；支持开启后台悬浮窗，实现跨应用取词翻译。

2. 开发者本地部署使用

环境准备

安装Python基础环境及llama.cpp、transformers等依赖库。

GGUF模型调用示例代码

from llama_cpp import Llama

# 加载Hy-MT1.5-1.8B-1.25bit GGUF模型
llm = Llama(
  model_path="./Hy-MT1.5-1.8B-1.25bit.Q2_K.gguf",
  n_ctx=2048,
  n_threads=8
)

# 执行离线翻译
prompt = "翻译成中文：Hello everyone, welcome to China."
output = llm.create_completion(prompt=prompt, max_tokens=512)
print(output['choices'][0]['text'])

部署步骤

访问HuggingFace项目地址下载GGUF格式模型文件；
配置本地推理框架环境；
加载模型并设置上下文窗口、线程数参数；
构造翻译提示词，即可实现批量、单次文本翻译。

六、竞品对比

选取市面上主流两款离线翻译开源模型做横向对比：

对比维度	Hy-MT1.5-1.8B-1.25bit	开源离线翻译模型MT5-small	Llama2-7B翻译微调版
模型参数量	1.8B	0.3B	7B
量化体积	440MB	680MB	3.8GB
量化规格	1.25bit极致量化	8bit常规量化	4bit量化
支持翻译语种	33种+5种方言	15种主流语言	20种主流语言
端侧适配性	手机CPU原生优化	仅电脑端流畅	低端设备无法运行
翻译精度	接近原生大模型	短句尚可、长句语义偏差	精度优秀但硬件门槛高
开源部署难度	低，支持GGUF一键部署	中等	高，配置要求复杂

对比总结：Hy-MT1.5-1.8B-1.25bit 在参数量、体积、语种覆盖、硬件适配上全面占优，相比MT5-small精度更强、语种更多；相比Llama2-7B微调版体积缩小数倍，低配设备也能流畅运行，兼顾轻量化与高精度。

七、常见问题解答

问：1.25bit量化会不会严重降低翻译准确率？

答：不会。项目采用自研Sherry细粒度稀疏三值量化算法，通过保留核心权重、剔除冗余参数的方式，把精度损耗控制在极小范围，日常短句、长句、商务文本翻译效果和原版1.8B模型几乎无差别。

问：该模型只能在安卓手机上使用吗？

答：不是。除了安卓官方Demo，模型GGUF格式可在Windows、Mac、国产Linux电脑，以及嵌入式ARM设备、本地AI工具箱中部署使用，适配多终端设备。

问：使用过程中需要联网吗？会上传翻译内容吗？

答：全程纯本地离线运行，无需连接任何网络，所有翻译文本仅在用户设备内处理，不会上传至云端或第三方服务器，隐私性极强。

问：有没有办法把模型集成到自己的APP或小程序里？

答：可以。项目开源权重支持二次开发，开发者可基于GGUF格式接入安卓、PC、嵌入式项目，封装成自有翻译功能模块，无商用授权限制。

问：低配老旧手机能不能流畅运行该模型？

答：可以。模型针对手机ARM架构和SIMD指令做了深度优化，千元级入门安卓机、老旧机型均可正常加载，翻译响应速度稳定，不会出现卡顿闪退。

八、相关链接

HuggingFace 项目主页：https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
AngelSlim 官方开源库主页：https://huggingface.co/AngelSlim
腾讯混元HY-MT1.5基座模型主页：https://huggingface.co/tencent/HY-MT1.5-1.8B

九、总结

Hy-MT1.5-1.8B-1.25bit 是腾讯混元与AngelSlim联合打造的一款兼顾超小体积、高精度、全离线、多终端适配的开源多语言翻译模型，依托1.25bit极致量化技术实现440MB轻量化存储，覆盖上百种翻译语言方向，既普通用户可通过安卓APK开箱即用实现离线翻译，也能满足开发者二次部署、嵌入式集成、办公隐私翻译等多元需求，相比传统开源翻译模型具备体积更小、适配更广、精度更高的综合优势，是低资源硬件端侧离线翻译场景下高性价比的开源解决方案。