HY-1.8B-2Bit：腾讯开源2Bit产业级端侧大模型，极致压缩兼具高性能推理能力

原创发布日期：2026-02-12

一、HY-1.8B-2Bit是什么

HY-1.8B-2Bit是腾讯AngelSlim团队开源的低比特端侧大语言模型，是业内首个实现产业级2Bit量化并可规模化落地的端侧大模型成果，隶属于腾讯混元大模型生态的轻量化分支。该模型以腾讯Hunyuan-1.8B-Instruct为基础骨干模型，通过量化感知训练（QAT）技术将模型极致压缩至2Bit权重精度，最终实现等效参数量0.3B、实际内存占用仅600MB、模型文件大小约300MB的轻量化效果，相较原始全精度模型体积压缩超过6倍，却仅保留了极低的性能损耗。

作为面向端侧设备的专用模型，HY-1.8B-2Bit打破了低比特量化模型仅停留在实验室的行业现状，首次将2Bit量化技术推向产业级应用，其无需依赖高性能计算芯片和云端算力，可在普通消费级硬件上实现本地离线运行，同时兼顾了推理速度、模型性能与硬件适配性，是腾讯在大模型压缩、端云协同与边缘智能领域的重要技术突破。该模型的代码与相关部署工具基于AngelSlim许可证开源，由腾讯AngelSlim团队持续维护迭代，团队致力于通过该项目打造更易用、全面、高效的大模型压缩工具链，为端侧AI应用的普及提供技术支撑。

二、功能特色

HY-1.8B-2Bit的核心设计目标是实现极致轻量化、低性能损耗、高推理效率、广设备适配，相较于传统大模型和同级别低比特量化模型，其具备六大核心功能特色，也是该模型能实现产业级落地的关键优势：

超低位量化仍保超高信息留存，性能损耗可忽略
模型突破了低比特量化的性能瓶颈，将权重精度压缩至2Bit的极限状态，在数学、人文、编程、逻辑推理等多维度综合评测中，相较全精度的Hunyuan-1.8B-Instruct仅出现3.97%的平均性能衰减，在实际应用中几乎无感知；即使与4Bit量化的HY-1.8B-int4gptq模型相比，二者精度差距仅0.13%，性能几乎持平，但HY-1.8B-2Bit仅使用一半的权重精度，实现了“更低比特、同等级性能”的突破。
尺寸等效但性能远超同级别稠密模型，核心能力领先
从模型体积和硬件资源占用来看，HY-1.8B-2Bit与0.5B参数量的稠密模型HY-0.5B相近，属于同一硬件适配级别，但在核心能力上实现了全方位超越：在cmmlu、ceval等8大主流评测数据集上，HY-1.8B-2Bit平均领先HY-0.5B**16%**，其中数学推理数据集GSM8K领先22.29%、代码开发数据集LiveCodeBench领先20.62%，而HY-0.5B相较同系列大模型则出现了21.87%的平均精度暴跌，凸显了HY-1.8B-2Bit在低尺寸模型中的性能优势。
继承完整全思考能力，业内最紧凑的复杂推理模型
作为业内目前最紧凑的支持复杂推理的端侧模型，HY-1.8B-2Bit完整继承了Hunyuan-1.8B-Instruct的“全思考”能力，并非简单的轻量化裁剪，而是在压缩的同时保留了模型的逻辑推理、上下文理解、复杂任务处理等核心能力，可应对智能问答、内容创作、逻辑分析、代码编写等多样化的文本生成与理解需求，解决了传统端侧小模型“能力弱、推理浅”的痛点。
融合双思维链（Dual-CoT）策略，灵活适配不同任务场景
模型创新性集成了Dual-CoT双思维链推理策略，可根据任务复杂度和硬件资源情况灵活切换推理模式：对于日常闲聊、简单问答等直观查询，启用简洁短链模式，实现快速响应、降低延迟；对于数学计算、代码开发、逻辑推演等计算密集型任务，启用详细长链模式，保证推理深度和结果准确性。这种灵活性让模型可无缝适配端侧设备“实时响应、资源有限”的核心需求，兼顾速度与精度。
极致轻量化，端侧本地运行无压力
模型经优化后等效参数量仅0.3B，实际运行内存占用600MB，模型文件大小约300MB，比普通手机应用的体积更小，无需依赖云端算力和持续网络连接，可在消费级硬件上实现本地离线运行，既降低了应用的算力成本，又从根源上提升了数据隐私安全性，避免了数据上传云端的泄露风险。
推理速度大幅提升，端侧体验更流畅
轻量化设计让模型的推理效率得到质的提升，相较原始全精度的Hunyuan-1.8B-Instruct模型，HY-1.8B-2Bit在真实端侧设备上的生成速度提升2-3倍；在MacBook M4、天玑9500等主流硬件上的测试显示，模型首字时延在1024输入内可实现3-8倍加速，常用窗口下生成速度保持2倍以上稳定加速，解决了传统大模型端侧部署“卡顿、延迟高”的体验问题。
高硬件适配性，支持主流端侧架构与专用加速技术
模型针对端侧设备做了深度适配，支持gguf-int2与bf16伪量化权重格式，对Arm架构等主流移动平台具备高度适配性，同时专为SME2技术加持的设备优化，可在Apple M4、vivo X300及支持SME2的Arm CPU上实现高效运行，后续还将支持Neon内核，进一步扩大设备适配范围，大幅降低厂商的集成与部署成本。

三、技术细节

HY-1.8B-2Bit的高性能与轻量化背后，是腾讯AngelSlim团队在量化技术、模型训练、推理优化等方面的多重技术创新，核心技术体系围绕量化感知训练（QAT） 构建，同时结合数据优化、量化策略创新、推理框架适配等技术手段，最终实现2Bit量化的产业级落地，核心技术细节可分为四大模块：

（一）核心训练技术：量化感知训练（QAT）替代传统PTQ

低比特量化的核心痛点是“比特数越低，性能损耗越大”，传统的后训练量化（PTQ）技术在4Bit及以上量化中可实现近乎无损，但在2Bit量化中会出现严重的性能暴跌，无法满足产业级应用需求。HY-1.8B-2Bit摒弃了传统PTQ技术，采用量化感知训练（QAT） 作为核心训练方法，在模型训练阶段即引入量化噪声，让模型适应2Bit量化的权重精度，从根源上减少量化带来的性能损耗。

相较于PTQ技术，QAT技术让模型在训练过程中就学习低比特权重的表达形式，避免了后量化阶段的信息丢失，这也是HY-1.8B-2Bit能在2Bit精度下仅保留3.97%性能衰减的关键。而针对1.8B参数量模型在2Bit量化中的精度瓶颈，团队还通过数据优化、弹性拉伸量化、训练策略创新三种方法进一步提升模型的全科能力，让模型在数学、编程、人文等多领域保持均衡的性能表现。

（二）推理优化技术：Dual-CoT双思维链策略

为解决端侧设备“资源有限”与“复杂任务推理需求”的矛盾，模型集成了Dual-CoT双思维链推理优化策略，该策略是对传统Chain-of-Thought思维链推理的升级，核心是实现“推理深度与推理速度的动态平衡”：

短链模式：针对简单任务，模型仅启用核心推理步骤，减少计算量，实现毫秒级响应，适配端侧实时交互场景；
长链模式：针对复杂任务，模型启用完整的推理链路，保留多步思考、逻辑推演的能力，保证结果的准确性，适配端侧复杂任务处理场景。

双思维链策略并非简单的“模型裁剪”，而是在模型推理阶段的动态调度，依托于HY-1.8B-2Bit继承的完整全思考能力，实现了“一套模型、两种推理模式”，让模型可根据实际应用场景灵活调整，兼顾端侧设备的资源限制与任务的性能需求。

（三）模型压缩与格式优化：极致轻量化与高效推理

为实现端侧部署的轻量化需求，团队对模型进行了多维度的压缩与格式优化：

权重精度极致压缩：将模型从全精度压缩至2Bit，权重存储占用降低至原有的1/16；
模型格式适配：提供专门的GGUF格式模型文件，同时支持gguf-int2与bf16伪量化权重，GGUF格式是端侧大模型部署的主流格式，具备体积小、加载速度快、硬件适配性强的特点；
通道级量化：在量化过程中采用q2_0c通道级量化策略，相较于传统的张量级量化，通道级量化可根据不同通道的特征分布进行个性化量化，进一步减少量化损耗，提升模型性能。

经多维度优化后，模型最终实现等效参数量0.3B、内存占用600MB、文件大小300MB的轻量化效果，同时保证了推理效率。

（四）硬件加速技术：SME2专用优化与KleidiAI集成

HY-1.8B-2Bit专为SME2技术加持的设备做了深度优化，SME2是Arm架构下的端侧AI加速技术，可大幅提升低比特量化模型的推理效率，也是模型能在端侧设备上实现高效运行的硬件基础。同时，模型在部署框架中集成了KleidiAI加速引擎，在编译部署时开启KleidiAI支持后，可进一步调用设备的SME2加速能力，实现模型推理的硬件级加速，在MacBook M4、天玑9500等支持SME2的设备上，模型的推理速度和首字时延均实现大幅优化。

（五）性能评测技术：多维度全场景评测体系

为验证模型的性能，团队搭建了覆盖知识问答、逻辑推理、数学计算、代码开发、科学常识的多维度全场景评测体系，基于vLLM推理框架，在cmmlu、ceval、arc、bbh、gsm8k、humaneval、livecodebench、gpqa_diamond八大主流数据集上完成全面评测，评测结果直观反映了模型在不同场景下的性能表现，也为模型的后续优化提供了数据支撑。八大数据集的核心评测结果如下表所示：

模型	cmmlu	ceval	arc	bbh	gsm8k	humaneval(pass@3)	livecodebench	gpqa_diamond(pass@3)
HY-1.8B（全精度）	55.07%	54.27%	70.50%	79.08%	84.08%	94.51%	31.50%	68.18%
HY-0.5B（稠密模型）	37.08%	35.98%	49.89%	58.10%	55.04%	67.07%	12.11%	46.97%
HY-1.8B-int4gptq（4Bit）	50.80%	48.67%	68.83%	74.80%	78.70%	89.02%	30.08%	65.56%
HY-1.8B-2Bit（2Bit）	49.32%	47.60%	64.45%	75.54%	77.33%	93.29%	32.73%	65.15%

从评测结果可见，HY-1.8B-2Bit虽为2Bit量化模型，但在humaneval代码任务中达到93.29%，接近全精度模型；在livecodebench代码任务中更是达到32.73%，反超全精度模型的31.50%；在bbh逻辑推理任务中达到75.54%，甚至超过4Bit量化模型，整体性能表现均衡且优异。

四、应用场景

HY-1.8B-2Bit凭借轻量化、低资源占用、本地离线运行、高性能推理的核心优势，完美适配各类端侧设备和边缘计算场景，同时解决了传统云端大模型“延迟高、依赖网络、隐私风险高”的问题，以及传统端侧小模型“能力弱、体验差”的痛点，其应用场景覆盖消费电子、智能硬件、工业互联网、智慧生活等多个领域，核心落地场景可分为六大类：

（一）智能手机与移动终端

作为HY-1.8B-2Bit的核心应用场景，模型可直接部署于支持SME2技术的智能手机（如vivo X300、搭载天玑9500的机型），实现本地离线的AI助手功能，包括智能问答、实时文本翻译、内容总结、文案创作、本地语音控制等，无需联网调用云端算力，在网络不稳定或无网络的场景下仍能保持稳定响应，同时用户数据全程在本地处理，大幅提升隐私安全性。此外，模型的低资源占用特性不会给手机带来额外的内存和功耗负担，保证设备的正常使用体验。

（二）笔记本电脑与便携设备

在Apple M4等支持SME2技术的笔记本电脑、平板等便携设备上，模型可实现本地AI功能落地，例如离线文档处理、代码辅助编写、本地内容创作、会议纪要实时总结等，尤其适合商务办公、户外工作等场景，解决了便携设备在无网络环境下无法使用AI工具的问题，同时模型的快速推理能力保证了办公效率。

（三）智能座舱与车载设备

在智能汽车的车载设备中，HY-1.8B-2Bit可实现本地离线的智能语音交互、车载问答、行车场景化建议等功能，无需依赖车机联网，在地下车库、偏远路段等网络盲区仍能保持语音助手的正常响应，同时低延迟的推理能力让语音交互更流畅，提升车载智能体验；此外，模型的低资源占用特性适配车载设备的硬件限制，不会影响车机的其他核心功能。

（四）智能家居与IoT设备

在智能音箱、智能屏、智能家电等IoT设备中，模型可作为本地AI核心，实现设备的智能交互、场景化联动、语音控制等功能，让智能家居设备摆脱对云端的依赖，实现本地设备的互联互通和智能决策，同时降低设备的网络带宽需求和云端算力成本，提升智能家居的响应速度和稳定性。

（五）可穿戴设备

在智能手表、蓝牙耳机等可穿戴设备中，模型的极致轻量化特性使其可实现本地离线的轻量级AI功能，例如语音转文字、短文本翻译、智能提醒、运动场景建议等，充分利用可穿戴设备的硬件资源，为用户提供更智能、便捷的穿戴体验，同时保证设备的续航能力。

（六）工业边缘设备

在工业互联网的边缘计算设备中，HY-1.8B-2Bit可实现本地的工业数据文本分析、设备故障问答、工业场景化建议等功能，在工业现场的边缘节点完成AI推理，无需将数据上传至云端，既保证了工业数据的安全性，又降低了工业网络的传输压力，提升工业边缘计算的智能化水平。

HY-1.8B-2Bit：腾讯开源2Bit产业级端侧大模型，极致压缩兼具高性能推理能力

五、使用方法

HY-1.8B-2Bit的部署与使用基于llama.cpp框架实现，该框架是端侧大模型部署的主流框架，具备轻量化、跨平台、高效的特点。模型仅支持搭载SME2技术的设备（如Apple M4、vivo X300、支持SME2的Arm CPU），后续将支持Neon内核，扩大设备适配范围。以下为完整的模型部署、量化、运行与基准测试方法，操作流程基于Linux/MacOS系统，步骤清晰且可复现：

（一）前期准备

确认设备支持SME2技术，这是模型运行的硬件基础；
安装必要的构建工具：gcc、g++、make、cmake，确保编译过程无报错；
准备模型文件：团队已提供转换好的GGUF格式基础模型文件（hunyuan-fp16-qdq.gguf），可从官方开源地址获取。

（二）克隆并配置llama.cpp仓库

克隆llama.cpp官方仓库

git clone https://github.com/ggml-org/llama.cpp.git

cd llama.cpp

拉取并切换至专为SME2和2Bit量化优化的PR分支

git fetch origin pull/19357/head:pr-19357-sme2-int2
git checkout pr-19357-sme2-int2

（三）编译构建llama.cpp（开启KleidiAI与SME2支持）

mkdir build && cd build

执行cmake配置，开启KleidiAI支持，关闭Metal和BLAS（适配SME2设备）

cmake -DGGML_CPU_KLEIDIAI=ON -DGGML_METAL=OFF -DGGML_BLAS=OFF ..

编译构建，-j8表示使用8线程编译，可根据设备核心数调整

make -j8

（四）将模型量化为2Bit通道级格式（q2_0c）

将官方提供的fp16格式基础模型量化为HY-1.8B-2Bit专用的2Bit通道级（q2_0c）格式，生成最终可运行的模型文件

./bin/llama-quantize hunyuan-fp16-qdq.gguf hunyuan-q2_0.gguf q2_0c

其中，hunyuan-fp16-qdq.gguf为原始fp16模型文件，hunyuan-q2_0.gguf为量化后的2Bit模型文件，q2_0c为通道级2Bit量化策略。

（五）运行模型推理（两种模式）

首先开启SME2硬件加速环境变量，然后分别支持思考模式（启用双思维链，适合复杂任务）和无思考模式（快速响应，适合简单任务）两种推理模式，以“写一副春联”为例，具体命令如下：

开启SME2加速

export GGML_KLEIDIAI_SME=1

思考模式（启用推理链，默认模式）

./bin/llama-cli -m hunyuan-q2_0.gguf -p "写一副春联" -t 1 --seed 4568 -n 32

无思考模式（快速响应，添加/no_think前缀）

./bin/llama-cli -m hunyuan-q2_0.gguf -p "/no_think写一副春联" -t 1 --seed 4568 -n 32

参数说明：-m指定模型文件，-p指定输入提示词，-t指定线程数，--seed指定随机种子保证结果可复现，-n指定生成文本的最大长度。

（六）模型基准测试

使用llama-bench工具对模型进行性能基准测试，测试模型在不同提示词长度、线程数、生成长度下的推理速度、首字时延等性能指标，通用命令如下：

./bin/llama-bench -m hunyuan-q2_0.gguf -p <prompt-length> -t <number-of-threads> -n <gen-length>

参数说明：<prompt-length>为输入提示词的长度，<number-of-threads>为测试使用的线程数，<gen-length>为生成文本的最大长度，可根据设备性能调整参数，测试结果将直观展示模型的端侧运行性能。

六、常见问题解答

Q1：HY-1.8B-2Bit可以在不支持SME2技术的设备上运行吗？

A1：目前暂不支持，该模型现阶段专为SME2技术加持的设备设计，SME2是模型实现高效推理的硬件基础，在不支持SME2的设备上运行会出现报错或性能极差的情况。团队后续将推出Neon内核的适配版本，届时将支持更多Arm架构设备，扩大模型的设备适配范围。

Q2：编译llama.cpp时出现大量错误，提示缺少相关依赖，该如何解决？

A2：该问题主要是由于设备未安装必要的构建工具导致，llama.cpp的C++扩展编译需要依赖gcc、g++、make、cmake等工具，只需在设备上安装对应的构建工具即可解决；此外，若为Windows系统，建议使用WSL2或虚拟机运行Linux环境，避免编译兼容问题。

Q3：量化模型时提示模型文件不存在，该如何处理？

A3：首先确认下载的基础模型文件为GGUF格式的hunyuan-fp16-qdq.gguf，且文件路径正确，在执行量化命令时需保证模型文件与llama-quantize工具在同一目录下，或在命令中指定模型文件的绝对路径；同时确认模型文件下载完整，无损坏或缺失。

Q4：运行模型时开启了SME2加速，但推理速度仍较慢，可能的原因是什么？

A4：主要有三个原因：一是线程数设置不合理，可通过调整-t参数增加线程数，充分利用设备的多核性能；二是设备的SME2技术未正确启用，可检查设备的硬件设置，确认SME2加速功能开启；三是输入提示词过长，模型在长文本输入下的推理速度会有所下降，可适当缩短提示词长度。

Q5：HY-1.8B-2Bit与HY-1.8B-int4gptq相比，各有什么适用场景？

A5：二者性能几乎持平，但HY-1.8B-2Bit为2Bit量化，资源占用更低、推理速度更快，适合硬件资源有限、对轻量化要求高的端侧设备（如可穿戴设备、IoT设备）；HY-1.8B-int4gptq为4Bit量化，模型稳定性更高，适合硬件资源相对充足、对模型性能稳定性要求高的端侧设备（如笔记本电脑、智能手机）。

Q6：模型支持哪些推理框架，除了llama.cpp还能在其他框架部署吗？

A6：目前模型的官方部署方案仅基于llama.cpp框架，该框架是端侧大模型部署的最优选择，具备轻量化、高效的特点；后续团队将逐步支持更多端侧推理框架，具体支持计划可关注官方GitHub仓库的更新。

Q7：HY-1.8B-2Bit的开源许可证是什么，商业使用是否受限？

A7：模型的代码与相关部署工具基于AngelSlim许可证开源，该许可证为腾讯AngelSlim团队制定的开源许可证，具体的商业使用规则可参考官方许可证文档，一般情况下，非商业使用完全免费，商业使用需遵守许可证的相关条款。

Q8：使用模型时，如何切换双思维链的短链和长链模式？

A8：模型的双思维链模式无需手动切换，会根据任务复杂度自动适配；若需要强制快速响应（短链模式），可在输入提示词前添加/no_think前缀，即为无思考模式，适合简单任务；若不添加该前缀，模型将默认启用思考模式（长链模式），适合复杂任务。

Q9：模型的生成结果不可复现，该如何解决？

A9：只需在运行模型的命令中添加--seed参数并指定固定的随机种子值，即可保证生成结果的可复现性，例如--seed 4568，每次运行使用相同的随机种子，输入相同的提示词，将得到相同的生成结果。

Q10：如何获取HY-1.8B-2Bit的最新模型文件和部署工具？

A10：可通过腾讯AngelSlim团队的官方GitHub仓库和Hugging Face仓库获取模型的最新文件、部署工具和更新内容，团队会持续迭代优化模型，及时发布新版本和新功能，具体地址见本文“七、相关官方链接”。

七、相关链接

HY-1.8B-2Bit Hugging Face官方仓库：https://huggingface.co/AngelSlim/HY-1.8B-2Bit
AngelSlim官方GitHub仓库：https://github.com/Tencent/AngelSlim

八、总结

HY-1.8B-2Bit是腾讯AngelSlim团队推出的开源2Bit产业级端侧大语言模型，也是业内首个实现2Bit量化技术产业级规模化落地的端侧模型成果，该模型以腾讯Hunyuan-1.8B-Instruct为基础，通过量化感知训练（QAT）实现2Bit权重精度的极致压缩，最终达成等效参数量0.3B、内存占用600MB、模型文件300MB的轻量化效果，相较全精度模型体积压缩超6倍且推理速度提升2-3倍，仅出现3.97%的平均性能衰减，在数学、编程、逻辑推理等多维度评测中表现优异，甚至在部分任务上反超全精度和4Bit量化模型。模型专为SME2技术加持的设备设计，基于llama.cpp框架实现完整的部署与使用流程，支持思考和无思考两种推理模式，可在智能手机、笔记本、智能家居等各类消费级端侧设备上实现本地离线运行，摆脱对云端算力和网络的依赖，既提升了AI应用的响应速度和隐私安全性，又降低了部署和使用成本。该模型的代码与模型文件基于AngelSlim许可证开源，由腾讯AngelSlim团队持续维护迭代，其不仅展现了腾讯在大模型压缩、端云协同领域的深厚技术积累，更首次将2Bit量化技术从实验室推向产业应用，为端侧AI的普及提供了高效、可落地的技术解决方案，也为行业内低比特端侧大模型的研发和应用提供了可复制、可规模化的技术路线，推动了边缘计算和端侧智能的发展。

混元大模型开源大模型

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/hy-1-8b-2bit.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注

HY-1.8B-2Bit：腾讯开源2Bit产业级端侧大模型，极致压缩兼具高性能推理能力

文章目录

一、HY-1.8B-2Bit是什么

二、功能特色

三、技术细节

（一）核心训练技术：量化感知训练（QAT）替代传统PTQ

（二）推理优化技术：Dual-CoT双思维链策略

（三）模型压缩与格式优化：极致轻量化与高效推理

（四）硬件加速技术：SME2专用优化与KleidiAI集成

（五）性能评测技术：多维度全场景评测体系

四、应用场景

（一）智能手机与移动终端

（二）笔记本电脑与便携设备

（三）智能座舱与车载设备

（四）智能家居与IoT设备

（五）可穿戴设备

（六）工业边缘设备

五、使用方法

（一）前期准备

（二）克隆并配置llama.cpp仓库

（三）编译构建llama.cpp（开启KleidiAI与SME2支持）

（四）将模型量化为2Bit通道级格式（q2_0c）

（五）运行模型推理（两种模式）

（六）模型基准测试

六、常见问题解答

七、相关链接

八、总结

相关文章