一文读懂 NSA：什么是 Native Sparse Attention（原生稀疏注意力）？

原创发布日期：2026-04-21

126

引言：打破“算力诅咒”的手术刀

在人工智能的浩瀚星空中，Transformer架构无疑是最璀璨的那颗恒星，而注意力机制（Attention Mechanism）则是驱动它燃烧的核心燃料。然而，随着大语言模型（LLM）向超长上下文迈进，这颗燃料逐渐变成了吞噬算力的黑洞。标准的自注意力机制，其计算复杂度与序列长度呈平方级增长（$O(N^2)$），当序列长度翻倍时，计算量和显存占用会暴增四倍。面对64K、128K甚至更长的上下文窗口，传统的“全量计算”模式已成为制约模型进化的沉重枷锁。

Native Sparse Attention（NSA，原生稀疏注意力）的横空出世，正是为了斩断这一枷锁。这不仅仅是一次算法的修补，而是一场从底层硬件到顶层训练范式的彻底革命。由DeepSeek团队在2025年初推出的这项技术，凭借其“原生可训练”与“硬件对齐”两大杀手锏，一举斩获ACL 25最佳论文奖，成为当下长上下文建模领域的绝对王者。

本文将以绝对硬核的态度，剥开NSA的技术外壳，为你呈现这台“算力引擎”的精密构造。

一、痛点深挖：为什么我们需要“原生”的稀疏？

在NSA出现之前，稀疏注意力并非新概念。学界和工业界早已尝试了各种“剪枝”手段，如滑动窗口、随机采样、哈希分桶等。但这些方法普遍患有“软骨病”，主要体现在两个致命缺陷上：

阶段割裂，训练“盲区”：绝大多数稀疏方法仅在推理阶段生效，而预训练阶段仍保留全量注意力。这就好比平时训练时让运动员背着沙袋跑，比赛时才卸下沙袋。这种“后置稀疏”导致模型在训练时无法学习到最优的稀疏模式，性能大打折扣，甚至出现“流形失真”——即为了稀疏而丢弃了关键的低频语义连接。
理论丰满，现实骨感：许多稀疏算法在纸面上能减少FLOPs（浮点运算次数），但在实际GPU上却跑不快。根源在于内存访问瓶颈。GPU擅长连续块访问（Coalesced Access），而传统的Token级随机稀疏选取，导致KV Cache的读取变得支离破碎，大量时间浪费在内存调度而非计算上。

NSA的核心主张极其鲜明：稀疏性必须是“原生”的，必须贯穿训练与推理的全生命周期；同时，稀疏模式必须服从硬件的物理规律，而非纯粹的数学假设。

二、核心架构：动态分层的“三驾马车”

NSA的灵魂在于其动态分层稀疏策略。它不再试图让每个Token与所有Token交互，而是将庞大的计算任务拆解为三个并行且互补的分支，像三位各司其职的专家，共同完成对上下文的理解。

这三大分支分别是：压缩注意力（Compressed Attention）、选择注意力（Selected Attention）和滑动窗口注意力（Sliding Window Attention）。

1. 压缩注意力：鸟瞰全局的“摘要员”

功能定位：捕捉全局上下文和低分辨率概要信息。
运作机制：将连续的Key-Value（KV）序列切分为固定大小的重叠块（Block）（例如块长32，步长16）。随后，通过一个可训练的多层感知机（MLP），将每个块内的多个KV向量“压缩”成一个单一的、高信息密度的向量。
核心价值：这不是简单的平均池化，而是端到端的学习。模型会自动学习如何用一个向量代表整个块的语义。计算量瞬间从序列长度$L$级降至块数量$L/B$级，实现了对全局信息的“鸟瞰”。

2. 选择注意力：精准狙击的“猎手”

功能定位：聚焦于与当前Query最相关的细粒度关键信息。
运作机制：在压缩注意力的基础上，计算每个块的重要性分数（通常利用压缩阶段的中间注意力分数），然后执行Top-K选择。仅保留得分最高的K个块，并将这些块内的原始Token展开，进行标准的细粒度注意力计算。
核心价值：实现了“粗中选精”。既避免了全量计算的冗余，又保留了关键细节，确保模型不会因为压缩而丢失重要线索。

3. 滑动窗口注意力：守土有责的“卫兵”

功能定位：处理局部上下文，确保语法和短距离依赖的精确性。
运作机制：为当前Query显式地保留一个固定大小的局部窗口（如最近的512个Token），仅在这个窗口内进行密集计算。
核心价值：局部模式（如语法结构）往往收敛极快，容易在训练中“短路”其他分支。滑动窗口的存在，强制模型保留对局部细节的敏感度，同时解放了压缩和选择分支，让它们专注于全局和关键信息。

最终输出：NSA将这三个分支的输出按权重相加（权重由门控网络学习），得到最终的注意力结果。这种“全局概要 + 关键细节 + 局部邻域”的组合拳，在数学上完美逼近了全量注意力的效果，而计算成本却断崖式下跌。

一文读懂 NSA：什么是 Native Sparse Attention（原生稀疏注意力）？

三、硬件对齐：拒绝“理论加速”的陷阱

NSA之所以被称为“Native”，另一个核心原因在于它对GPU硬件的极致利用。传统的稀疏注意力往往死在内存墙上——计算虽然少了，但由于KV Cache访问不连续，GPU的Tensor Core大部分时间在空转等待数据。

NSA通过以下手段实现了硬件友好的稀疏化：

1. 块级连续访问（Block-wise Access）

NSA的所有稀疏操作都是基于块（Block）而非单个Token。无论是压缩还是选择，处理的都是连续的内存段。这完美契合了GPU的内存合并访问（Memory Coalescing）机制，极大提升了显存带宽利用率。

2. 专用Triton内核优化

DeepSeek团队并未止步于算法设计，而是利用Triton语言编写了专用的稀疏注意力内核。

优化策略：针对现代NVIDIA GPU的SRAM（片上高速缓存）和Tensor Core特性，精心设计了数据加载路径。
流水线设计：将KV Cache的加载、压缩、选择和计算高度流水线化，掩盖了内存延迟。
分组查询支持：完美适配MQA（Multi-Query Attention）和GQA（Grouped-Query Attention）架构，在这些主流架构下依然能保持极高的内存访问效率，避免了因KV共享导致的冗余读取。

3. 算力实测数据

根据多项基准测试，NSA在实际硬件上的表现堪称恐怖：

场景	序列长度	加速倍数 (vs 全注意力)	备注
前向传播	64K	~9倍	显存占用降低70%以上
反向传播	64K	~6倍	训练吞吐量大幅提升
推理解码	32K	3-5倍	局部模式主导任务更快
长思维链	128K	显著可行	突破原有长度极限

注：具体加速比受模型规模、硬件型号及任务类型影响，但在长上下文场景下，NSA始终保持压倒性优势。

四、训练范式：端到端的“原生”进化

这是NSA与所有前辈最本质的区别。NSA是可训练的。

在传统的“训练全量+推理稀疏”模式中，模型在训练时从未见过稀疏模式，推理时突然“砍掉”大量连接，必然导致性能退化。而NSA将稀疏掩码（Mask）的生成变成了一个可微分的过程。

动态门控：模型通过一个轻量级的门控网络（类似MoE中的Router），根据当前输入动态决定每个分支的权重。
梯度回传：在反向传播时，梯度不仅更新Q、K、V的投影矩阵，还会更新压缩用的MLP参数和选择策略的参数。这意味着，模型在预训练阶段就在主动学习“哪些Token是不重要的”。
无损迁移：由于训练和推理的架构完全一致（Native），不需要任何后处理或微调，预训练好的模型可以直接以稀疏模式进行超长上下文推理，性能不降反升。

这种“所见即所得”的训练方式，让模型学会了像人类阅读一样——略读无关段落，精读核心章节，回顾最近几行。

五、实战应用与生态落地

NSA并非实验室里的玩具，它已迅速渗透到多个领域，并拥有成熟的开源实现。

1. 适用场景

长文档理解：法律合同、学术论文、代码库分析。NSA能轻松处理数万Token的输入，精准定位关键条款或Bug代码段。
时间序列预测：股票价格、传感器数据、天气预报。利用滑动窗口捕捉短期波动，利用压缩注意力捕捉长期趋势。
多模态视频理解：如VideoNSA变体，通过“全局摘要+关键帧选择+最近动作”三板斧，以极低算力理解90分钟以上的长视频，解决了“注意力沉没”问题。
端侧部署：由于显存占用极低，NSA使得在手机、车机等资源受限设备上运行长上下文模型成为可能。

2. PyTorch实现与配置

开源社区已推出了成熟的native-sparse-attention-pytorch库。开发者只需像搭积木一样替换原有的Attention层：

from native_sparse_attention_pytorch import SparseAttention

# 初始化NSA模块
model = SparseAttention(
  dim=512,        # 特征维度
  heads=8,        # 头数
  sliding_window_size=512, # 滑动窗口大小
  compress_block_size=32, # 压缩块尺寸
  select_block_size=64,  # 选择块尺寸
  top_k=16        # Top-K选择数量
)

# 前向传播
output = model(query, key, value)

该库深度集成了Triton内核，确保开箱即用即快。

六、深度对比：NSA vs 其他稀疏方法

为了更直观地理解NSA的优势，我们将其与主流方法进行对比：

特性	标准 Attention (Full)	传统稀疏 (Sparse)	BigBird / Longformer	Native Sparse Attention (NSA)
计算复杂度		或		(硬件优化后常数极小)
训练支持	全量	仅推理	仅推理	端到端原生训练
全局视野	完美	受限	受限 (固定模式)	动态压缩全局
局部精度	完美	较好	较好 (滑动窗口)	滑动窗口保障
硬件效率	高 (算力受限)	低 (内存瓶颈)	中	极高 (Triton优化)
性能保持	100%	下降明显	接近全量	匹配或超越全量