HPC-Ops：腾讯混元开源的生产级大模型推理算子库，适配FP8/BF16多精度推理

AI新闻人工智能研究所 1个月前

109

一、HPC-Ops是什么

HPC-Ops 是腾讯混元AI基础设施团队推出的开源项目，定位为面向大语言模型(LLM)推理的生产级高性能算子库。项目聚焦大模型推理全链路核心性能瓶颈，基于新一代NVIDIA GPU硬件深度定制CUDA计算内核，兼顾高性能、易集成、多精度适配等特性，不仅可直接落地于企业级线上推理服务，同时也是现代CUDA高阶开发的优质实战范例。

随着大语言模型规模化落地，线上推理普遍存在核心算子执行效率低、通信与计算无法协同、低精度推理适配难度大、框架集成成本高等问题。HPC-Ops 立足于腾讯内部大规模生产推理场景，针对推理延迟、吞吐率两大核心指标做专项优化，优化范围覆盖注意力机制、混合专家、矩阵运算、采样、归一化、通信计算融合等高频热点链路。项目摒弃冗余设计，以生产可用为第一原则，原生适配主流推理框架，同时完整运用当下前沿CUDA技术栈，兼顾工程落地与技术学习双重价值。

二、功能特色

HPC-Ops 围绕性能、集成、精度、技术示范四大核心方向打造功能体系，全部能力均经过线上业务验证，核心特色如下：

2.1 业界顶尖的算子性能，生产环境稳定可用

针对NVIDIA H20 GPU做深度指令集、线程调度、访存逻辑定制，在Attention、GEMM、MoE、采样、通信计算融合等核心算子上达到SOTA（当前最优）性能水平。
已全面应用于腾讯内部大规模大模型推理集群，历经海量线上请求压力测试，稳定性、容错性满足商业生产环境标准。

2.2 极简集成能力，快速对接主流框架

提供简洁规范的Python API，接口设计轻量化，无需重构现有业务代码即可完成接入。
原生兼容 vLLM、SGLang 等市面主流大模型推理框架，配套完整的测试用例与性能基准脚本，一键完成功能验证与性能对比。

2.3 全维度数值精度支持

原生适配 BF16、FP8 两大主流精度格式，支持多种量化策略，满足模型轻量化、提速降本的需求。
内置混合精度计算内核，针对对话生成、专业内容输出等精度敏感型推理场景做专项优化，在提速的同时保障模型输出效果。

2.4 现代CUDA技术实战范例

项目基于前沿CUDA生态构建，完整落地 CuTe、CUTLASS、cp.async、TMA、PDL、组播等新一代GPU开发技术，代码为精简的生产级实现，可作为高阶CUDA算子开发、GPU性能调优的实战学习资料。

HPC-Ops（图1）

三、技术细节

3.1 整体技术架构

HPC-Ops 采用分层模块化架构，层级划分清晰、耦合度低，整体分为三层，各司其职：

应用接入层：对外暴露标准Python API与底层C++接口，提供测试脚本、基准测试工具、框架适配插件，负责对接上层推理框架与业务系统。
核心算子层：项目核心主体，包含Attention算子、GEMM矩阵运算、MoE混合专家算子、采样算子、归一化算子、通信计算融合模块，所有内核均针对NVIDIA H20 GPU做硬件级优化。
硬件驱动层：基于标准CUDA生态开发，深度调用GPU硬件特性，整合TMA张量内存加速器、异步拷贝、硬件组播、任务调度等能力，最大化挖掘硬件算力。

3.2 核心关键技术实现

3.2.1 热点算子深度优化

项目聚焦推理链路中耗时占比最高的热点路径，拒绝无效冗余开发：

对Attention、Group GEMM、MoE等高频算子重构CUDA Kernel，优化线程块、线程束分配策略，减少GPU硬件资源闲置。
实现通信-计算融合技术，将分布式场景下的数据通信与模型计算流程合并，消除数据等待带来的性能损耗，大幅提升多卡推理效率。

3.2.2 新一代CUDA技术栈落地

项目全面采用现代GPU开发技术，也是其高性能的核心支撑：

CUTLASS & CuTe：依托NVIDIA官方高性能矩阵运算库，构建标准、高效的基础计算逻辑，保障矩阵乘法类算子的基础性能。
cp.async：启用CUDA异步数据拷贝指令，实现数据传输与模型计算并行执行，打破CPU与GPU、GPU与GPU之间的数据交互瓶颈。
TMA（张量内存加速器）：优化张量数据的内存访问逻辑，降低访存延迟，尤其适配大模型长上下文、大批次推理场景。
PDL + 硬件组播：优化GPU内部任务调度与多卡数据广播机制，提升分布式集群的数据传输效率。

3.2.3 多精度与量化技术

原生实现FP8、BF16全链路计算逻辑，支持多种工业界主流量化方案，量化流程嵌入算子内部，无需额外开发适配代码。
混合精度内核动态切换计算精度，对精度要求高的计算环节保留高精度运算，非核心环节使用低精度提速，实现速度与精度的平衡。

3.3 软硬件运行环境要求

部署与运行HPC-Ops需满足以下基础环境条件，具体要求如下表：

分类	具体要求
硬件	主推 NVIDIA H20 GPU；兼容同架构新一代NVIDIA推理GPU
操作系统	Linux 主流发行版（Ubuntu、CentOS、Debian 等服务端系统）
基础依赖	CUDA Toolkit（支持TMA、cp.async等新特性版本）、CUTLASS、CuTe
开发环境	Python 3.8及以上（使用Python API）、支持C++17的编译器
配套组件	基准测试工具、框架依赖（vLLM/SGLang按需安装）

四、应用场景

依托高性能算子、多精度适配、易集成三大优势，HPC-Ops 广泛应用于大模型推理、GPU技术学习两大领域，细分场景如下：

企业级线上大模型推理服务
智能对话机器人、知识库问答、文本创作、API推理服务等公网在线业务，依靠算子提效提升系统并发量、降低单请求延迟，支撑高并发流量。
MoE混合专家模型部署
千亿级、万亿级稀疏大模型落地场景，针对MoE路由、专家计算、数据聚合全链路优化，解决稀疏模型推理慢、跨卡通信开销大的问题。
低精度量化推理场景
基于FP8/BF16量化的模型部署业务，适用于算力成本敏感、追求极致吞吐的云端推理、边缘推理场景。
长文本推理业务
文档解析、长上下文对话、代码生成、长篇文本摘要等场景，借助TMA内存优化与Attention算子优化，降低长文本推理的显存占用与延迟。
分布式多卡推理集群
多GPU、多节点算力集群场景，利用通信-计算融合、硬件组播能力，优化跨卡数据交互，提升分布式集群整体算力利用率。
CUDA算子开发学习
面向GPU开发工程师、AI底层研发人员，作为现代CUDA、CUTLASS、高性能算子开发的实战学习案例。

五、使用方法

下文基于Linux系统，提供源码拉取、编译、接口调用、框架集成完整基础使用流程，操作命令可直接复用。

5.1 前置准备

提前安装对应版本CUDA Toolkit、GCC编译器、Python环境，配置好系统环境变量，确保CUDA、CUTLASS、CuTe依赖正常生效。

5.2 拉取源码仓库

打开终端，执行Git命令克隆官方代码：

git clone https://github.com/Tencent/hpc-ops.git
cd hpc-ops

5.3 项目编译

创建编译目录并执行编译，生成底层CUDA内核与动态链接库：

mkdir build && cd build
cmake ..
make -j$(nproc)

编译完成后，编译产物会输出至build目录，包含C++内核库、测试程序、基准测试工具。

5.4 Python 基础接口调用

项目核心能力可通过Python API快速调用，基础示例代码如下：

# 导入 HPC-Ops 算子库
import hpc_ops

# 调用优化后的 Attention 算子
out_tensor = hpc_ops.fused_attention(q_tensor, k_tensor, v_tensor, attn_mask)

# 调用采样算子
gen_result = hpc_ops.model_sampling(logits)

开发者可根据业务需求，替换原有框架原生算子，快速实现推理加速。

5.5 基准测试与效果验证

使用项目自带的benchmark工具，检测算子性能：

# 执行性能基准测试
./benchmark/ops_benchmark

结合输出数据，对比原生算子与HPC-Ops算子的延迟、吞吐差异。

5.6 对接主流推理框架（以vLLM为例）

将编译完成的动态库放入vLLM依赖目录；
修改框架配置文件，指定加载HPC-Ops优化算子；
重启推理服务，完成无缝适配，无需改动业务逻辑。

六、竞品对比

选取业界三款主流大模型推理算子库/加速组件：HPC-Ops、FlashInfer、TensorRT-LLM进行横向对比，从项目定位、核心优势、集成难度、精度支持、附加能力、适用场景多维度分析。

对比维度	HPC-Ops	FlashInfer	TensorRT-LLM
开发主体	腾讯混元AI Infra团队（开源）	社区开源团队	NVIDIA 官方（开源+商业）
核心定位	生产级LLM推理算子库，兼顾性能与CUDA学习范例	极致性能推理算子库，专注算子提速	全链路大模型推理加速引擎
集成难度	低，Python API简洁，适配vLLM/SGLang	中等，需适配部分框架底层逻辑	较高，依赖TensorRT生态，定制成本高
精度支持	原生支持BF16/FP8，多量化方案、混合精度	支持主流精度，量化适配较弱	全精度兼容，量化工具链完善
附加能力	完整现代CUDA实战代码，具备学习价值	仅算子能力，无额外教学属性	全链路优化、模型编译、推理调度一体化
硬件侧重	深度优化NVIDIA H20 GPU	通用NVIDIA全系GPU	全系列NVIDIA GPU通用优化
生产落地	腾讯内部大规模业务落地验证	社区广泛使用，中小规模落地居多	企业级大规模落地，行业认可度高

对比总结

FlashInfer 主打极致算子性能，功能纯粹，适合仅追求推理速度、无学习需求的算法工程场景；
TensorRT-LLM 是NVIDIA官方全链路加速方案，功能全面但集成门槛高，更适合大型企业深度定制部署；
HPC-Ops 兼顾高性能、低集成成本、多精度适配，同时附带优质CUDA学习案例，兼顾生产部署与技术学习，中小型团队、底层研发人员均适用。

七、常见问题解答

1. 使用HPC-Ops必须使用NVIDIA H20 GPU吗？

不是必须。项目针对NVIDIA H20 GPU做了深度专项优化，在该硬件上可发挥最佳性能；同时也兼容同架构的其他新一代NVIDIA推理GPU，只是优化效果会略低于H20。项目暂不支持AMD GPU与纯CPU运行环境。

2. 接入HPC-Ops是否需要大幅修改现有推理代码？

不需要。项目设计了轻量化Python API，同时提供主流推理框架的适配插件。绝大多数场景下，仅需替换原有算子调用逻辑、加载编译库即可完成集成，现有业务架构、服务逻辑均无需改动。

3. HPC-Ops支持哪些数值精度和量化方式？

原生支持BF16、FP8两大主流低精度格式，兼容业内通用的各类量化方案。同时内置混合精度内核，可自动适配精度敏感场景，平衡推理速度与输出精度。

4. 新手可以借助该项目学习CUDA高阶开发吗？

可以。项目代码为精简的生产级实现，完整运用了CuTe、CUTLASS、cp.async、TMA、硬件组播等现代CUDA核心技术，搭配可运行的示例代码，是高阶GPU算子开发、性能调优的优质实战教程。

5. 部署后推理性能没有提升，该如何排查？

首先检查算子是否成功替换、动态库是否正常加载；其次确认硬件环境是否匹配优化架构；最后查看业务场景，短文本、极小批量请求本身性能瓶颈较低，优化效果会不明显。可使用项目自带基准测试工具单独检测算子性能，定位问题所在。

6. 该项目开源协议是什么，是否允许商用？

HPC-Ops为开源项目，可自由下载、编译、二次开发，允许企业商用。详细开源协议可查阅代码仓库内的LICENSE文件，使用时遵守对应协议规范即可。

7. HPC-Ops可以用于模型训练场景吗？

项目核心定位为大模型推理算子库，主要针对推理链路优化。虽然部分通用矩阵运算算子可用于训练，但并未针对训练流程、反向传播做专项优化，不建议作为训练主力组件使用。

八、相关链接

GitHub代码仓库：https://github.com/Tencent/hpc-ops

九、总结

HPC-Ops是腾讯混元AI基础设施团队打造的生产级大模型推理算子库，依托新一代NVIDIA GPU硬件特性完成全链路内核优化，在Attention、MoE、GEMM等核心推理算子上实现业界领先性能，且经过腾讯内部大规模线上业务验证，稳定性完全满足商用需求。项目接口简洁、集成门槛低，可无缝对接vLLM、SGLang等主流推理框架，同时全面支持BF16、FP8及混合精度计算，适配多样化的模型部署与量化场景。除此之外，项目整合了当下前沿的CUDA技术栈，生产级的精简代码使其成为高阶GPU算子开发的优质学习素材。整体而言，HPC-Ops既是企业提升大模型推理效率、降低算力成本的实用工程工具，也是GPU底层研发人员学习现代CUDA开发的实战案例，在AI推理落地与技术学习领域都具备较高的使用价值。

LLM推理算子库开源项目

打赏

版权及免责申明：本文由@人工智能研究所原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/hpc-ops.html

THE END

人工智能研究所

发现AI神器，探索AI技术！

+ 关注