IndexCache:清华与智谱联合开源的大模型稀疏注意力推理加速补丁 IndexCache是由清华大学与Z.ai(智谱AI)联合研发、面向DeepSeek Sparse Attention(DSA)架构大模型的推理加速开源补丁,核心通过跨层索引复用技术消除75%索引器冗余计算,... 5小时前 AI新闻 61