Hy-MT1.5-1.8B-1.25bit:腾讯混元开源的1.25bit极致量化离线多语言翻译模型

原创 发布日期:
61

一、Hy-MT1.5-1.8B-1.25bit 是什么

Hy-MT1.5-1.8B-1.25bit 是由腾讯混元团队联合 AngelSlim 共同推出的超轻量化端侧离线多语言翻译大模型,基于腾讯原生 HY-MT1.5-1.8B 翻译底座模型,采用自研 Sherry 三值量化算法完成 1.25bit 极致量化压缩,是专为低端手机、轻薄电脑、嵌入式设备等低资源硬件打造的离线AI翻译解决方案。

该模型打破了传统大翻译模型体积大、依赖云端、占用硬件资源高的痛点,在仅440MB极小体积下,保留近乎原版大模型的翻译精度,支持数十种主流语言与方言互译,全程无网络、不上传数据、本地离线运算,完美适配隐私化、端侧化的翻译使用需求,也是目前开源领域同等参数下压缩率最高、翻译效果最优的离线翻译模型之一。

二、功能特色

  • 全语种海量互译
    支持33种主流国际语言+5种国内方言及少数民族语言,覆盖1056个双向翻译方向,日常商务、留学、跨境沟通、方言转换场景全覆盖。

  • 极致轻量化体积
    原模型FP16版本体积高达3.3GB,经1.25bit量化后压缩至440MB,普通手机、老旧电脑均可轻松装载部署。

  • 无损高精度翻译
    依托Sherry细粒度稀疏量化技术,压缩后翻译精度损耗极低,翻译流畅度、语义理解能力超越同量级开源小模型,媲美主流商用翻译接口。

  • 纯离线隐私运行
    全程本地CPU运算,无需联网、不采集用户文本数据,翻译内容仅留存设备本地,彻底杜绝隐私泄露风险。

  • 端侧硬件深度适配
    针对手机ARM架构、CPU SIMD指令集做专项优化,安卓移动端可流畅后台运行,支持跨应用取词、弹窗实时翻译。

  • 多格式开源兼容
    原生权重同步提供GGUF标准格式,兼容llama.cpp、Ollama、本地AI工具箱等主流部署框架,一键导入即可使用。

  • 自带落地应用Demo
    官方提供安卓APK安装包,开箱即用,无需复杂部署配置,普通用户也能直接上手离线翻译。

三、技术细节

  1. 基础模型底座
    底层基于腾讯自研 HY-MT1.5-1.8B 18亿参数通用翻译大模型,基座模型经过海量多语言语料训练,具备强泛化语义理解、长句语境连贯翻译能力。

  2. 核心量化算法 Sherry
    采用ACL收录的Sherry硬件友好型三值量化算法,创新实现4个权重压缩为5bit,等效达到1.25bit超低比特量化标准;采用3:4细粒度稀疏策略,每4个模型权重保留3个核心有效值、1个冗余权重置零,在大幅缩减体积的同时锁住核心翻译能力。

  3. 架构与指令优化
    深度适配移动端ARM架构,对齐SIMD并行指令,优化推理调度逻辑,降低CPU占用与功耗,低端安卓手机也能实现毫秒级翻译响应。

  4. 模型格式支持
    开源发布原生量化权重 + GGUF通用量化格式,适配本地大模型部署全生态,支持本地推理、二次微调、嵌入第三方应用集成开发。

  5. 推理运行机制
    采用端侧本地自回归推理模式,输入文本仅在设备内部完成编码、语义解析、翻译生成,无云端数据交互,从底层保障数据隐私安全。

Hy-MT1.5-1.8B-1.25bit:腾讯混元开源的1.25bit极致量化离线多语言翻译模型

四、应用场景

  • 个人日常离线翻译
    出国旅游、境外无网络环境下的菜单、路牌、对话实时翻译,无需依赖流量和云端服务。

  • 隐私办公商务翻译
    企业涉密文档、商务合同、内部邮件本地翻译,避免敏感文本上传云端造成信息泄露。

  • 移动端跨应用取词
    手机阅读外文文章、浏览跨境网站、外文APP时,后台悬浮取词一键翻译,沉浸式使用无阻隔。

  • 方言与少数民族语言转换
    支持国内多地方言、少数民族语言互译,助力地域文化沟通、基层政务沟通场景落地。

  • 嵌入式设备集成
    智能音箱、翻译机、工业嵌入式终端、车载设备二次开发,低成本嵌入离线翻译能力。

  • 教育学习辅助
    学生外语阅读、课文翻译、单词长句解析,离线使用无广告、无内容推送干扰。

五、使用方法

1. 普通用户快速使用

直接下载官方提供的安卓APK安装包,安装后打开APP,无需注册登录,选择翻译语种,输入或粘贴文本即可实时离线翻译;支持开启后台悬浮窗,实现跨应用取词翻译。

2. 开发者本地部署使用

环境准备

安装Python基础环境及llama.cpp、transformers等依赖库。

GGUF模型调用示例代码

from llama_cpp import Llama

# 加载Hy-MT1.5-1.8B-1.25bit GGUF模型
llm = Llama(
  model_path="./Hy-MT1.5-1.8B-1.25bit.Q2_K.gguf",
  n_ctx=2048,
  n_threads=8
)

# 执行离线翻译
prompt = "翻译成中文:Hello everyone, welcome to China."
output = llm.create_completion(prompt=prompt, max_tokens=512)
print(output['choices'][0]['text'])

部署步骤

  1. 访问HuggingFace项目地址下载GGUF格式模型文件;

  2. 配置本地推理框架环境;

  3. 加载模型并设置上下文窗口、线程数参数;

  4. 构造翻译提示词,即可实现批量、单次文本翻译。

六、竞品对比

选取市面上主流两款离线翻译开源模型做横向对比:

对比维度 Hy-MT1.5-1.8B-1.25bit 开源离线翻译模型MT5-small Llama2-7B翻译微调版
模型参数量 1.8B 0.3B 7B
量化体积 440MB 680MB 3.8GB
量化规格 1.25bit极致量化 8bit常规量化 4bit量化
支持翻译语种 33种+5种方言 15种主流语言 20种主流语言
端侧适配性 手机CPU原生优化 仅电脑端流畅 低端设备无法运行
翻译精度 接近原生大模型 短句尚可、长句语义偏差 精度优秀但硬件门槛高
开源部署难度 低,支持GGUF一键部署 中等 高,配置要求复杂

对比总结:Hy-MT1.5-1.8B-1.25bit 在参数量、体积、语种覆盖、硬件适配上全面占优,相比MT5-small精度更强、语种更多;相比Llama2-7B微调版体积缩小数倍,低配设备也能流畅运行,兼顾轻量化与高精度。

七、常见问题解答

问:1.25bit量化会不会严重降低翻译准确率?

 

答:不会。项目采用自研Sherry细粒度稀疏三值量化算法,通过保留核心权重、剔除冗余参数的方式,把精度损耗控制在极小范围,日常短句、长句、商务文本翻译效果和原版1.8B模型几乎无差别。

问:该模型只能在安卓手机上使用吗?

答:不是。除了安卓官方Demo,模型GGUF格式可在Windows、Mac、国产Linux电脑,以及嵌入式ARM设备、本地AI工具箱中部署使用,适配多终端设备。

问:使用过程中需要联网吗?会上传翻译内容吗?

答:全程纯本地离线运行,无需连接任何网络,所有翻译文本仅在用户设备内处理,不会上传至云端或第三方服务器,隐私性极强。

问:有没有办法把模型集成到自己的APP或小程序里?

答:可以。项目开源权重支持二次开发,开发者可基于GGUF格式接入安卓、PC、嵌入式项目,封装成自有翻译功能模块,无商用授权限制。

问:低配老旧手机能不能流畅运行该模型?

答:可以。模型针对手机ARM架构和SIMD指令做了深度优化,千元级入门安卓机、老旧机型均可正常加载,翻译响应速度稳定,不会出现卡顿闪退。

八、相关链接

九、总结

Hy-MT1.5-1.8B-1.25bit 是腾讯混元与AngelSlim联合打造的一款兼顾超小体积、高精度、全离线、多终端适配的开源多语言翻译模型,依托1.25bit极致量化技术实现440MB轻量化存储,覆盖上百种翻译语言方向,既普通用户可通过安卓APK开箱即用实现离线翻译,也能满足开发者二次部署、嵌入式集成、办公隐私翻译等多元需求,相比传统开源翻译模型具备体积更小、适配更广、精度更高的综合优势,是低资源硬件端侧离线翻译场景下高性价比的开源解决方案。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。