大模型推理框架

大模型推理框架新闻、工具、教程及资源推荐

SGLang是一款开源的大模型高性能推理框架，主打低延迟、高吞吐量的模型推理能力，原生支持结构化生成，创新采用RadixAttention技术实现KV缓存高效复用，兼容主流大模型与多...

Nano-vLLM 是一个从头构建的轻量级大模型推理框架，以仅约 1200 行 Python 代码实现了与主流推理框架相当的性能，同时保持代码的简洁性和可读性。它集成了前缀缓存、张量并...