RedKnot:小红书开源的长上下文LLM推理优化工具,分头KV缓存加速长文本服务 RedKnot 是小红书AI Infra团队开源、面向长上下文大模型推理服务的高性能优化扩展方案。项目基于SGLang推理引擎做注意力层扩展,兼容SGLang全部原生能力。 3小时前 AI新闻 63