SGLang:开源大模型高性能推理框架,原生支持结构化生成与多硬件适配 SGLang是一款开源的大模型高性能推理框架,主打低延迟、高吞吐量的模型推理能力,原生支持结构化生成,创新采用RadixAttention技术实现KV缓存高效复用,兼容主流大模型与多... 4周前 AI新闻 80
Nano-vLLM:轻量高效的大模型推理框架,兼顾高性能与代码高可读性 Nano-vLLM 是一个从头构建的轻量级大模型推理框架,以仅约 1200 行 Python 代码实现了与主流推理框架相当的性能,同时保持代码的简洁性和可读性。它集成了前缀缓存、张量并... 3个月前 AI新闻 48