大语言模型推理

大语言模型推理新闻、工具、教程及资源推荐

TensorRT-LLM是NVIDIA推出的开源大语言模型（LLM）推理优化框架，专为NVIDIA全系列GPU量身打造。该框架整合了投机解码、专家并行、KV-Cache智能管理、低精度量化等前沿技术...

vLLM是一款高性能开源大语言模型（LLM）推理与服务库，核心依托PagedAttention分页注意力机制、连续批处理等技术创新，解决传统LLM推理中显存利用率低、延迟高、吞吐量低的...