HY-1.8B-2Bit:腾讯开源2Bit产业级端侧大模型,极致压缩兼具高性能推理能力

原创 发布日期:
60

一、HY-1.8B-2Bit是什么

HY-1.8B-2Bit是腾讯AngelSlim团队开源的低比特端侧大语言模型,是业内首个实现产业级2Bit量化并可规模化落地的端侧大模型成果,隶属于腾讯混元大模型生态的轻量化分支。该模型以腾讯Hunyuan-1.8B-Instruct为基础骨干模型,通过量化感知训练(QAT)技术将模型极致压缩至2Bit权重精度,最终实现等效参数量0.3B、实际内存占用仅600MB、模型文件大小约300MB的轻量化效果,相较原始全精度模型体积压缩超过6倍,却仅保留了极低的性能损耗。

作为面向端侧设备的专用模型,HY-1.8B-2Bit打破了低比特量化模型仅停留在实验室的行业现状,首次将2Bit量化技术推向产业级应用,其无需依赖高性能计算芯片和云端算力,可在普通消费级硬件上实现本地离线运行,同时兼顾了推理速度、模型性能与硬件适配性,是腾讯在大模型压缩、端云协同与边缘智能领域的重要技术突破。该模型的代码与相关部署工具基于AngelSlim许可证开源,由腾讯AngelSlim团队持续维护迭代,团队致力于通过该项目打造更易用、全面、高效的大模型压缩工具链,为端侧AI应用的普及提供技术支撑。

二、功能特色

HY-1.8B-2Bit的核心设计目标是实现极致轻量化、低性能损耗、高推理效率、广设备适配,相较于传统大模型和同级别低比特量化模型,其具备六大核心功能特色,也是该模型能实现产业级落地的关键优势:

  1. 超低位量化仍保超高信息留存,性能损耗可忽略
    模型突破了低比特量化的性能瓶颈,将权重精度压缩至2Bit的极限状态,在数学、人文、编程、逻辑推理等多维度综合评测中,相较全精度的Hunyuan-1.8B-Instruct仅出现3.97%的平均性能衰减,在实际应用中几乎无感知;即使与4Bit量化的HY-1.8B-int4gptq模型相比,二者精度差距仅0.13%,性能几乎持平,但HY-1.8B-2Bit仅使用一半的权重精度,实现了“更低比特、同等级性能”的突破。

  2. 尺寸等效但性能远超同级别稠密模型,核心能力领先
    从模型体积和硬件资源占用来看,HY-1.8B-2Bit与0.5B参数量的稠密模型HY-0.5B相近,属于同一硬件适配级别,但在核心能力上实现了全方位超越:在cmmlu、ceval等8大主流评测数据集上,HY-1.8B-2Bit平均领先HY-0.5B**16%**,其中数学推理数据集GSM8K领先22.29%、代码开发数据集LiveCodeBench领先20.62%,而HY-0.5B相较同系列大模型则出现了21.87%的平均精度暴跌,凸显了HY-1.8B-2Bit在低尺寸模型中的性能优势。

  3. 继承完整全思考能力,业内最紧凑的复杂推理模型
    作为业内目前最紧凑的支持复杂推理的端侧模型,HY-1.8B-2Bit完整继承了Hunyuan-1.8B-Instruct的“全思考”能力,并非简单的轻量化裁剪,而是在压缩的同时保留了模型的逻辑推理、上下文理解、复杂任务处理等核心能力,可应对智能问答、内容创作、逻辑分析、代码编写等多样化的文本生成与理解需求,解决了传统端侧小模型“能力弱、推理浅”的痛点。

  4. 融合双思维链(Dual-CoT)策略,灵活适配不同任务场景
    模型创新性集成了Dual-CoT双思维链推理策略,可根据任务复杂度和硬件资源情况灵活切换推理模式:对于日常闲聊、简单问答等直观查询,启用简洁短链模式,实现快速响应、降低延迟;对于数学计算、代码开发、逻辑推演等计算密集型任务,启用详细长链模式,保证推理深度和结果准确性。这种灵活性让模型可无缝适配端侧设备“实时响应、资源有限”的核心需求,兼顾速度与精度。

  5. 极致轻量化,端侧本地运行无压力
    模型经优化后等效参数量仅0.3B,实际运行内存占用600MB,模型文件大小约300MB,比普通手机应用的体积更小,无需依赖云端算力和持续网络连接,可在消费级硬件上实现本地离线运行,既降低了应用的算力成本,又从根源上提升了数据隐私安全性,避免了数据上传云端的泄露风险。

  6. 推理速度大幅提升,端侧体验更流畅
    轻量化设计让模型的推理效率得到质的提升,相较原始全精度的Hunyuan-1.8B-Instruct模型,HY-1.8B-2Bit在真实端侧设备上的生成速度提升2-3倍;在MacBook M4、天玑9500等主流硬件上的测试显示,模型首字时延在1024输入内可实现3-8倍加速,常用窗口下生成速度保持2倍以上稳定加速,解决了传统大模型端侧部署“卡顿、延迟高”的体验问题。

  7. 高硬件适配性,支持主流端侧架构与专用加速技术
    模型针对端侧设备做了深度适配,支持gguf-int2与bf16伪量化权重格式,对Arm架构等主流移动平台具备高度适配性,同时专为SME2技术加持的设备优化,可在Apple M4、vivo X300及支持SME2的Arm CPU上实现高效运行,后续还将支持Neon内核,进一步扩大设备适配范围,大幅降低厂商的集成与部署成本。

三、技术细节

HY-1.8B-2Bit的高性能与轻量化背后,是腾讯AngelSlim团队在量化技术、模型训练、推理优化等方面的多重技术创新,核心技术体系围绕量化感知训练(QAT) 构建,同时结合数据优化、量化策略创新、推理框架适配等技术手段,最终实现2Bit量化的产业级落地,核心技术细节可分为四大模块:

(一)核心训练技术:量化感知训练(QAT)替代传统PTQ

低比特量化的核心痛点是“比特数越低,性能损耗越大”,传统的后训练量化(PTQ)技术在4Bit及以上量化中可实现近乎无损,但在2Bit量化中会出现严重的性能暴跌,无法满足产业级应用需求。HY-1.8B-2Bit摒弃了传统PTQ技术,采用量化感知训练(QAT) 作为核心训练方法,在模型训练阶段即引入量化噪声,让模型适应2Bit量化的权重精度,从根源上减少量化带来的性能损耗。

相较于PTQ技术,QAT技术让模型在训练过程中就学习低比特权重的表达形式,避免了后量化阶段的信息丢失,这也是HY-1.8B-2Bit能在2Bit精度下仅保留3.97%性能衰减的关键。而针对1.8B参数量模型在2Bit量化中的精度瓶颈,团队还通过数据优化、弹性拉伸量化、训练策略创新三种方法进一步提升模型的全科能力,让模型在数学、编程、人文等多领域保持均衡的性能表现。

(二)推理优化技术:Dual-CoT双思维链策略

为解决端侧设备“资源有限”与“复杂任务推理需求”的矛盾,模型集成了Dual-CoT双思维链推理优化策略,该策略是对传统Chain-of-Thought思维链推理的升级,核心是实现“推理深度与推理速度的动态平衡”:

  • 短链模式:针对简单任务,模型仅启用核心推理步骤,减少计算量,实现毫秒级响应,适配端侧实时交互场景;

  • 长链模式:针对复杂任务,模型启用完整的推理链路,保留多步思考、逻辑推演的能力,保证结果的准确性,适配端侧复杂任务处理场景。

双思维链策略并非简单的“模型裁剪”,而是在模型推理阶段的动态调度,依托于HY-1.8B-2Bit继承的完整全思考能力,实现了“一套模型、两种推理模式”,让模型可根据实际应用场景灵活调整,兼顾端侧设备的资源限制与任务的性能需求。

(三)模型压缩与格式优化:极致轻量化与高效推理

为实现端侧部署的轻量化需求,团队对模型进行了多维度的压缩与格式优化:

  1. 权重精度极致压缩:将模型从全精度压缩至2Bit,权重存储占用降低至原有的1/16;

  2. 模型格式适配:提供专门的GGUF格式模型文件,同时支持gguf-int2与bf16伪量化权重,GGUF格式是端侧大模型部署的主流格式,具备体积小、加载速度快、硬件适配性强的特点;

  3. 通道级量化:在量化过程中采用q2_0c通道级量化策略,相较于传统的张量级量化,通道级量化可根据不同通道的特征分布进行个性化量化,进一步减少量化损耗,提升模型性能。

经多维度优化后,模型最终实现等效参数量0.3B、内存占用600MB、文件大小300MB的轻量化效果,同时保证了推理效率。

(四)硬件加速技术:SME2专用优化与KleidiAI集成

HY-1.8B-2Bit专为SME2技术加持的设备做了深度优化,SME2是Arm架构下的端侧AI加速技术,可大幅提升低比特量化模型的推理效率,也是模型能在端侧设备上实现高效运行的硬件基础。同时,模型在部署框架中集成了KleidiAI加速引擎,在编译部署时开启KleidiAI支持后,可进一步调用设备的SME2加速能力,实现模型推理的硬件级加速,在MacBook M4、天玑9500等支持SME2的设备上,模型的推理速度和首字时延均实现大幅优化。

(五)性能评测技术:多维度全场景评测体系

为验证模型的性能,团队搭建了覆盖知识问答、逻辑推理、数学计算、代码开发、科学常识的多维度全场景评测体系,基于vLLM推理框架,在cmmlu、ceval、arc、bbh、gsm8k、humaneval、livecodebench、gpqa_diamond八大主流数据集上完成全面评测,评测结果直观反映了模型在不同场景下的性能表现,也为模型的后续优化提供了数据支撑。八大数据集的核心评测结果如下表所示:

模型 cmmlu ceval arc bbh gsm8k humaneval(pass@3) livecodebench gpqa_diamond(pass@3)
HY-1.8B(全精度) 55.07% 54.27% 70.50% 79.08% 84.08% 94.51% 31.50% 68.18%
HY-0.5B(稠密模型) 37.08% 35.98% 49.89% 58.10% 55.04% 67.07% 12.11% 46.97%
HY-1.8B-int4gptq(4Bit) 50.80% 48.67% 68.83% 74.80% 78.70% 89.02% 30.08% 65.56%
HY-1.8B-2Bit(2Bit) 49.32% 47.60% 64.45% 75.54% 77.33% 93.29% 32.73% 65.15%

从评测结果可见,HY-1.8B-2Bit虽为2Bit量化模型,但在humaneval代码任务中达到93.29%,接近全精度模型;在livecodebench代码任务中更是达到32.73%,反超全精度模型的31.50%;在bbh逻辑推理任务中达到75.54%,甚至超过4Bit量化模型,整体性能表现均衡且优异。

四、应用场景

HY-1.8B-2Bit凭借轻量化、低资源占用、本地离线运行、高性能推理的核心优势,完美适配各类端侧设备和边缘计算场景,同时解决了传统云端大模型“延迟高、依赖网络、隐私风险高”的问题,以及传统端侧小模型“能力弱、体验差”的痛点,其应用场景覆盖消费电子、智能硬件、工业互联网、智慧生活等多个领域,核心落地场景可分为六大类:

(一)智能手机与移动终端

作为HY-1.8B-2Bit的核心应用场景,模型可直接部署于支持SME2技术的智能手机(如vivo X300、搭载天玑9500的机型),实现本地离线的AI助手功能,包括智能问答、实时文本翻译、内容总结、文案创作、本地语音控制等,无需联网调用云端算力,在网络不稳定或无网络的场景下仍能保持稳定响应,同时用户数据全程在本地处理,大幅提升隐私安全性。此外,模型的低资源占用特性不会给手机带来额外的内存和功耗负担,保证设备的正常使用体验。

(二)笔记本电脑与便携设备

在Apple M4等支持SME2技术的笔记本电脑、平板等便携设备上,模型可实现本地AI功能落地,例如离线文档处理、代码辅助编写、本地内容创作、会议纪要实时总结等,尤其适合商务办公、户外工作等场景,解决了便携设备在无网络环境下无法使用AI工具的问题,同时模型的快速推理能力保证了办公效率。

(三)智能座舱与车载设备

在智能汽车的车载设备中,HY-1.8B-2Bit可实现本地离线的智能语音交互、车载问答、行车场景化建议等功能,无需依赖车机联网,在地下车库、偏远路段等网络盲区仍能保持语音助手的正常响应,同时低延迟的推理能力让语音交互更流畅,提升车载智能体验;此外,模型的低资源占用特性适配车载设备的硬件限制,不会影响车机的其他核心功能。

(四)智能家居与IoT设备

在智能音箱、智能屏、智能家电等IoT设备中,模型可作为本地AI核心,实现设备的智能交互、场景化联动、语音控制等功能,让智能家居设备摆脱对云端的依赖,实现本地设备的互联互通和智能决策,同时降低设备的网络带宽需求和云端算力成本,提升智能家居的响应速度和稳定性。

(五)可穿戴设备

在智能手表、蓝牙耳机等可穿戴设备中,模型的极致轻量化特性使其可实现本地离线的轻量级AI功能,例如语音转文字、短文本翻译、智能提醒、运动场景建议等,充分利用可穿戴设备的硬件资源,为用户提供更智能、便捷的穿戴体验,同时保证设备的续航能力。

(六)工业边缘设备

在工业互联网的边缘计算设备中,HY-1.8B-2Bit可实现本地的工业数据文本分析、设备故障问答、工业场景化建议等功能,在工业现场的边缘节点完成AI推理,无需将数据上传至云端,既保证了工业数据的安全性,又降低了工业网络的传输压力,提升工业边缘计算的智能化水平。

HY-1.8B-2Bit:腾讯开源2Bit产业级端侧大模型,极致压缩兼具高性能推理能力

五、使用方法

HY-1.8B-2Bit的部署与使用基于llama.cpp框架实现,该框架是端侧大模型部署的主流框架,具备轻量化、跨平台、高效的特点。模型仅支持搭载SME2技术的设备(如Apple M4、vivo X300、支持SME2的Arm CPU),后续将支持Neon内核,扩大设备适配范围。以下为完整的模型部署、量化、运行与基准测试方法,操作流程基于Linux/MacOS系统,步骤清晰且可复现:

(一)前期准备

  1. 确认设备支持SME2技术,这是模型运行的硬件基础;

  2. 安装必要的构建工具:gccg++makecmake,确保编译过程无报错;

  3. 准备模型文件:团队已提供转换好的GGUF格式基础模型文件(hunyuan-fp16-qdq.gguf),可从官方开源地址获取。

(二)克隆并配置llama.cpp仓库

  1. 克隆llama.cpp官方仓库

git clone https://github.com/ggml-org/llama.cpp.git
  1. 进入仓库目录

cd llama.cpp
  1. 拉取并切换至专为SME2和2Bit量化优化的PR分支

git fetch origin pull/19357/head:pr-19357-sme2-int2
git checkout pr-19357-sme2-int2

(三)编译构建llama.cpp(开启KleidiAI与SME2支持)

  1. 创建并进入构建目录

mkdir build && cd build
  1. 执行cmake配置,开启KleidiAI支持,关闭Metal和BLAS(适配SME2设备)

cmake -DGGML_CPU_KLEIDIAI=ON -DGGML_METAL=OFF -DGGML_BLAS=OFF ..
  1. 编译构建,-j8表示使用8线程编译,可根据设备核心数调整

make -j8

(四)将模型量化为2Bit通道级格式(q2_0c)

将官方提供的fp16格式基础模型量化为HY-1.8B-2Bit专用的2Bit通道级(q2_0c)格式,生成最终可运行的模型文件

./bin/llama-quantize hunyuan-fp16-qdq.gguf hunyuan-q2_0.gguf q2_0c

其中,hunyuan-fp16-qdq.gguf为原始fp16模型文件,hunyuan-q2_0.gguf为量化后的2Bit模型文件,q2_0c为通道级2Bit量化策略。

(五)运行模型推理(两种模式)

首先开启SME2硬件加速环境变量,然后分别支持思考模式(启用双思维链,适合复杂任务)和无思考模式(快速响应,适合简单任务)两种推理模式,以“写一副春联”为例,具体命令如下:

  1. 开启SME2加速

export GGML_KLEIDIAI_SME=1
  1. 思考模式(启用推理链,默认模式)

./bin/llama-cli -m hunyuan-q2_0.gguf -p "写一副春联" -t 1 --seed 4568 -n 32
  1. 无思考模式(快速响应,添加/no_think前缀)

./bin/llama-cli -m hunyuan-q2_0.gguf -p "/no_think写一副春联" -t 1 --seed 4568 -n 32

参数说明:-m指定模型文件,-p指定输入提示词,-t指定线程数,--seed指定随机种子保证结果可复现,-n指定生成文本的最大长度。

(六)模型基准测试

使用llama-bench工具对模型进行性能基准测试,测试模型在不同提示词长度、线程数、生成长度下的推理速度、首字时延等性能指标,通用命令如下:

./bin/llama-bench -m hunyuan-q2_0.gguf -p <prompt-length> -t <number-of-threads> -n <gen-length>

参数说明:<prompt-length>为输入提示词的长度,<number-of-threads>为测试使用的线程数,<gen-length>为生成文本的最大长度,可根据设备性能调整参数,测试结果将直观展示模型的端侧运行性能。

六、常见问题解答

Q1:HY-1.8B-2Bit可以在不支持SME2技术的设备上运行吗?

A1:目前暂不支持,该模型现阶段专为SME2技术加持的设备设计,SME2是模型实现高效推理的硬件基础,在不支持SME2的设备上运行会出现报错或性能极差的情况。团队后续将推出Neon内核的适配版本,届时将支持更多Arm架构设备,扩大模型的设备适配范围。

Q2:编译llama.cpp时出现大量错误,提示缺少相关依赖,该如何解决?

A2:该问题主要是由于设备未安装必要的构建工具导致,llama.cpp的C++扩展编译需要依赖gccg++makecmake等工具,只需在设备上安装对应的构建工具即可解决;此外,若为Windows系统,建议使用WSL2或虚拟机运行Linux环境,避免编译兼容问题。

Q3:量化模型时提示模型文件不存在,该如何处理?

A3:首先确认下载的基础模型文件为GGUF格式的hunyuan-fp16-qdq.gguf,且文件路径正确,在执行量化命令时需保证模型文件与llama-quantize工具在同一目录下,或在命令中指定模型文件的绝对路径;同时确认模型文件下载完整,无损坏或缺失。

Q4:运行模型时开启了SME2加速,但推理速度仍较慢,可能的原因是什么?

A4:主要有三个原因:一是线程数设置不合理,可通过调整-t参数增加线程数,充分利用设备的多核性能;二是设备的SME2技术未正确启用,可检查设备的硬件设置,确认SME2加速功能开启;三是输入提示词过长,模型在长文本输入下的推理速度会有所下降,可适当缩短提示词长度。

Q5:HY-1.8B-2Bit与HY-1.8B-int4gptq相比,各有什么适用场景?

A5:二者性能几乎持平,但HY-1.8B-2Bit为2Bit量化,资源占用更低、推理速度更快,适合硬件资源有限、对轻量化要求高的端侧设备(如可穿戴设备、IoT设备);HY-1.8B-int4gptq为4Bit量化,模型稳定性更高,适合硬件资源相对充足、对模型性能稳定性要求高的端侧设备(如笔记本电脑、智能手机)。

Q6:模型支持哪些推理框架,除了llama.cpp还能在其他框架部署吗?

A6:目前模型的官方部署方案仅基于llama.cpp框架,该框架是端侧大模型部署的最优选择,具备轻量化、高效的特点;后续团队将逐步支持更多端侧推理框架,具体支持计划可关注官方GitHub仓库的更新。

Q7:HY-1.8B-2Bit的开源许可证是什么,商业使用是否受限?

A7:模型的代码与相关部署工具基于AngelSlim许可证开源,该许可证为腾讯AngelSlim团队制定的开源许可证,具体的商业使用规则可参考官方许可证文档,一般情况下,非商业使用完全免费,商业使用需遵守许可证的相关条款。

Q8:使用模型时,如何切换双思维链的短链和长链模式?

A8:模型的双思维链模式无需手动切换,会根据任务复杂度自动适配;若需要强制快速响应(短链模式),可在输入提示词前添加/no_think前缀,即为无思考模式,适合简单任务;若不添加该前缀,模型将默认启用思考模式(长链模式),适合复杂任务。

Q9:模型的生成结果不可复现,该如何解决?

A9:只需在运行模型的命令中添加--seed参数并指定固定的随机种子值,即可保证生成结果的可复现性,例如--seed 4568,每次运行使用相同的随机种子,输入相同的提示词,将得到相同的生成结果。

Q10:如何获取HY-1.8B-2Bit的最新模型文件和部署工具?

A10:可通过腾讯AngelSlim团队的官方GitHub仓库和Hugging Face仓库获取模型的最新文件、部署工具和更新内容,团队会持续迭代优化模型,及时发布新版本和新功能,具体地址见本文“七、相关官方链接”。

七、相关链接

  1. HY-1.8B-2Bit Hugging Face官方仓库:https://huggingface.co/AngelSlim/HY-1.8B-2Bit

  2. AngelSlim官方GitHub仓库:https://github.com/Tencent/AngelSlim

八、总结

HY-1.8B-2Bit是腾讯AngelSlim团队推出的开源2Bit产业级端侧大语言模型,也是业内首个实现2Bit量化技术产业级规模化落地的端侧模型成果,该模型以腾讯Hunyuan-1.8B-Instruct为基础,通过量化感知训练(QAT)实现2Bit权重精度的极致压缩,最终达成等效参数量0.3B、内存占用600MB、模型文件300MB的轻量化效果,相较全精度模型体积压缩超6倍且推理速度提升2-3倍,仅出现3.97%的平均性能衰减,在数学、编程、逻辑推理等多维度评测中表现优异,甚至在部分任务上反超全精度和4Bit量化模型。模型专为SME2技术加持的设备设计,基于llama.cpp框架实现完整的部署与使用流程,支持思考和无思考两种推理模式,可在智能手机、笔记本、智能家居等各类消费级端侧设备上实现本地离线运行,摆脱对云端算力和网络的依赖,既提升了AI应用的响应速度和隐私安全性,又降低了部署和使用成本。该模型的代码与模型文件基于AngelSlim许可证开源,由腾讯AngelSlim团队持续维护迭代,其不仅展现了腾讯在大模型压缩、端云协同领域的深厚技术积累,更首次将2Bit量化技术从实验室推向产业应用,为端侧AI的普及提供了高效、可落地的技术解决方案,也为行业内低比特端侧大模型的研发和应用提供了可复制、可规模化的技术路线,推动了边缘计算和端侧智能的发展。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。