TensorRT-LLM:英伟达开源的LLM推理优化框架,极致提速GPU大模型部署与运行 TensorRT-LLM是NVIDIA推出的开源大语言模型(LLM)推理优化框架,专为NVIDIA全系列GPU量身打造。该框架整合了投机解码、专家并行、KV-Cache智能管理、低精度量化等前沿技术... 3小时前 AI新闻 63
vLLM:高性能开源LLM推理库,低延迟高吞吐且兼容多生态部署解决方案 vLLM是一款高性能开源大语言模型(LLM)推理与服务库,核心依托PagedAttention分页注意力机制、连续批处理等技术创新,解决传统LLM推理中显存利用率低、延迟高、吞吐量低的... 4小时前 AI新闻 62