IndexCache：清华与智谱联合开源的大模型稀疏注意力推理加速补丁

原创发布日期：2026-03-23

一、IndexCache是什么

IndexCache是清华大学与智谱AI联合推出的稀疏注意力推理加速技术，以补丁形式集成于SGLang与vLLM推理框架，专为采用DeepSeek Sparse Attention（DSA）的大模型设计，核心解决长上下文下索引器计算冗余导致的推理瓶颈问题。

DSA通过每层独立筛选Top‑K相关令牌实现稀疏化，将注意力复杂度从O(L²)降至O(LK)，但长上下文（如200K）中索引器占预填充耗时81%，成为性能卡点。IndexCache基于相邻层索引高度重叠的核心发现，通过跨层索引复用，仅保留少量Full层计算索引，其余Shared层直接复用缓存索引，最多消除75%索引器计算，实现零额外显存、单if/else分支、无损质量的极致加速，已在30B DSA模型、GLM‑5（744B）等场景完成验证，是长上下文大模型工程化落地的关键优化方案。

二、功能特色

极致性能增益
长上下文200K场景下，30B DSA模型预填充加速1.82倍、解码加速1.48倍；GLM‑5（744B）生产环境端到端加速约1.2倍，多基准测试质量几乎无下降。
零成本轻量化接入
仅需一个if/else分支即可实现，不占用额外GPU显存，无需新增存储与计算资源，兼容现有推理集群部署架构。
双路径灵活适配
提供免训练与训练感知两种方案，快速部署或极致精度均可满足，覆盖学术测试与工业生产全场景。
框架与模型友好兼容
原生支持SGLang、vLLM两大主流推理引擎，适配DeepSeek‑V3.2、GLM‑5及所有DSA架构模型，接入成本极低。
长上下文专项优化
直击200K超长上下文索引器瓶颈，大幅降低时延，提升长文本摘要、文档理解、多轮对话等场景吞吐率。

三、技术细节

1. 核心痛点：DSA索引器的冗余困境

DSA每层独立运行索引器筛选Top‑K令牌，复杂度O(L²)；200K上下文时索引器占预填充时间81%，成为长上下文性能瓶颈。实测DSA 47层相邻层索引重叠率70%–100%，大量计算完全冗余。

2. 核心设计：Full层与Shared层分工

IndexCache将模型层划分为两类：

Full层（F）：保留索引器，正常计算并缓存Top‑K索引
Shared层（S）：移除索引器，复用最近F层缓存索引
最终仅保留约1/4索引器，质量几乎无损。

3. 两种技术方案

方案	实现逻辑	训练需求	适用场景
Training‑free	校准集贪心搜索选保留层，最小化LM损失	免训练	快速部署、快速验证
Training‑aware	多层蒸馏训练，F层索引适配覆盖所有S层	需微调	生产部署、精度优先

两种方案均可移除75%索引器，精度损失可忽略。

4. 极简工程实现

代码层面：仅新增一个if/else分支，无复杂重构
显存层面：复用现有张量空间，零额外GPU显存
推理流程：F层计算→缓存索引→S层读取复用，无额外计算开销
配置层面：支持均匀间隔与自定义模式两种参数配置，灵活可控。

5. 性能实测数据

模型规格	任务	基线	IndexCache	加速比
30B DSA	预填充（200K）	19.5s	10.7s	1.82×
30B DSA	解码（200K）	58 tok/s	86 tok/s	1.48×
GLM‑5（744B）	端到端	—	—	~1.2×

所有基准测试效果几乎无变化，稳定性经过生产验证。

四、应用场景

超长文本理解与生成
法律文档、学术论文、财报等100K–200K上下文场景，降低时延、提升吞吐。
企业级私有部署大模型
金融、政务、医疗等对显存与算力敏感场景，零额外显存加速，降低硬件成本。
DSA架构模型服务化
DeepSeek‑V3.2、GLM‑5等模型线上推理，提升QPS、减少排队等待。
大模型推理框架优化
SGLang、vLLM集成商与二次开发者，直接补丁升级，快速获得性能收益。
长上下文智能体
多轮对话、复杂工具调用、长上下文规划Agent，提升响应速度与用户体验。

IndexCache：清华与智谱联合开源的大模型稀疏注意力推理加速补丁

五、使用方法

IndexCache以补丁形式接入SGLang与vLLM，三步完成部署。

步骤1：克隆指定版本框架代码

SGLang

git clone https://github.com/sgl-project/sglang.git
cd sglang
git checkout b638b25b

vLLM

git clone https://github.com/vllm-project/vllm.git
cd vllm
git checkout 4508532fb

步骤2：应用IndexCache补丁

# SGLang
git apply /path/to/indexcache.patch

# vLLM
git apply /path/to/indexcache_vllm.patch

步骤3：启动服务并配置参数

支持两种配置方式：

方式A：均匀间隔模式（简单通用）

python -m sglang.launch_server \
 --model-path zai-org/GLM-5-FP8 \
 --json-model-override-args '{"index_topk_freq": 4}' \
 --tp 8 ...

index_topk_freq=4表示每4层保留1个F层，移除75%索引器，为推荐默认值。

方式B：自定义模式（精准最优）

python -m sglang.launch_server \
 --model-path zai-org/GLM-5-FP8 \
 --json-model-override-args '{"index_topk_pattern": "FFSFSSSFSSFFFSSSFFFSFSSSSSSFFSFFSFFSSFFFFFFSFFFFFSFFSSSSSSFSFFFSFSSSFSFFSFFSSS"}' \
 --tp 8 ...

字符串中F=Full层、S=Shared层，逐一层指定，优先级高于index_topk_freq。

核心配置参数说明

index_topk_freq：int，默认1，每N层保留1个F层；1=关闭，4=保留1/4
index_topk_pattern：string，默认null，自定义F/S层序列，设置后覆盖freq参数。

六、常见问题解答（FAQ）

IndexCache支持哪些模型？

目前官方支持DeepSeek‑V3.2与GLM‑5（744B），所有采用DSA索引器的模型均可兼容受益。

使用IndexCache是否需要额外GPU显存？

不需要，实现零额外显存占用，仅复用原有张量空间，不增加部署成本。

开启IndexCache会影响模型生成质量吗？

官方9大/10大基准测试显示效果几乎无变化，训练感知模式可进一步保证精度无损。

Training‑free与Training‑aware该如何选择？

快速验证、免训练选Training‑free；生产环境、追求极致稳定选Training‑aware。

IndexCache与KV Cache是什么关系？

两者独立互补：KV Cache缓存Key/Value，IndexCache缓存Top‑K索引，不冲突、可同时开启。

为什么长上下文效果更明显？

长上下文下索引器O(L²)开销占比极高，IndexCache直接消除冗余，短上下文也有收益但更温和。

不设置任何参数时默认行为是什么？

所有层均为F层，与标准DSA完全一致，可安全回退无风险。

SGLang与vLLM必须用指定Commit吗？

建议用指定Commit保证兼容；新版本若补丁冲突，切换到官方验证Commit即可。

index_topk_freq设为多少合适？

推荐4（保留1/4索引器），平衡速度与质量；训练感知模型用4效果最佳。

可以同时设置index_topk_freq和index_topk_pattern吗？

不可以，pattern优先级更高，设置后freq自动失效，二选一即可。

七、相关官方链接

GitHub开源仓库：https://github.com/THUDM/IndexCache
技术论文arXiv地址：https://arxiv.org/abs/2603.12201
SGLang官方仓库：https://github.com/sgl-project/sglang
vLLM官方仓库：https://github.com/vllm-project/vllm

总结

IndexCache是清华大学与智谱AI面向DSA稀疏注意力大模型推出的轻量化推理加速补丁，以跨层索引复用为核心，消除75%索引器冗余计算，实现预填充最高1.82倍、解码最高1.48倍性能提升，具备零额外显存、极简代码、双方案适配、框架兼容等优势，在长上下文场景效果显著，已通过30B DSA模型与GLM‑5（744B）生产验证，质量几乎无损，是大模型推理工程化优化的高效方案，可直接集成SGLang与vLLM，快速降低时延、提升吞吐、节约算力成本。