Nano-vLLM:轻量高效的大模型推理框架,兼顾高性能与代码高可读性 Nano-vLLM 是一个从头构建的轻量级大模型推理框架,以仅约 1200 行 Python 代码实现了与主流推理框架相当的性能,同时保持代码的简洁性和可读性。它集成了前缀缓存、张量并... 3天前 AI新闻 9