LiteLLM:BerriAI 开源的多厂商大模型统一调用与管理工具
一、LiteLLM是什么
LiteLLM是面向大语言模型(LLM)的统一调用层与企业级AI网关,由BerriAI团队开发并开源,核心价值是用一套OpenAI兼容的标准接口,完成对全球100+主流大模型服务的调用、路由、监控与成本管理。它同时提供轻量级Python SDK与可独立部署的Proxy Server,让开发者与企业无需为不同厂商模型编写差异化代码,也无需重复搭建鉴权、限流、计费、日志等基础设施。
简单说,LiteLLM就是大模型时代的“万能适配器+中央控制台”:
对开发者:屏蔽OpenAI、Anthropic、Google、AWS Bedrock、Azure、DeepSeek、通义千问、文心一言等模型的接口差异,一套代码跑遍所有模型。
对企业:提供可落地的LLM Gateway,统一管理密钥、流量、权限、成本与日志,满足生产环境的稳定性、安全性与合规需求。
二、功能特色
1. 超大规模模型兼容
LiteLLM支持100+主流模型服务,覆盖海外头部厂商、国内主流模型、开源模型本地部署等全场景,且持续更新支持新模型。
| 模型类型 | 代表厂商/服务 |
|---|---|
| 闭源商业模型 | OpenAI、Azure OpenAI、Anthropic、Google Gemini、Cohere、Groq |
| 云厂商AI服务 | AWS Bedrock、GCP Vertex AI、阿里云、腾讯云、百度智能云 |
| 国内主流模型 | DeepSeek、通义千问、文心一言、混元、星尘 |
| 开源本地模型 | Ollama、Llama.cpp、HuggingFace、TGI、vLLM |
2. 完全OpenAI兼容接口
这是LiteLLM最核心的优势:
接口路径兼容:
/chat/completions、/embeddings、/images、/audio、/batches、/rerank。参数结构兼容:输入输出与OpenAI完全一致,现有OpenAI代码几乎零改造迁移。
异常兼容:所有厂商错误统一映射为OpenAI异常类型,原有异常处理逻辑直接复用。
3. 企业级AI网关能力
多密钥与虚拟密钥:支持为不同项目/用户生成虚拟密钥,隔离权限、追踪用量,无需暴露真实密钥。
智能路由与负载均衡:支持按成本、延迟、可用性自动路由;支持轮询、权重、故障转移、健康检查。
精细化成本管控:自动计算token消耗与费用,支持项目/用户/密钥级预算、限速、告警。
缓存与重试:内置请求缓存、自动重试、指数退避,提升服务稳定性与降低成本。
多租户与权限:支持团队、项目、角色分级管理,满足企业内部多部门使用。
4. 生产级可观测性
完整日志:记录每一次请求的模型、参数、token、耗时、费用、状态。
监控对接:原生支持Prometheus、Grafana、Langfuse、LangSmith、MLflow等。
告警通知:支持Slack、PagerDuty、Webhook等渠道告警。
5. 部署与使用极简
一行命令启动网关:
litellm --model gpt-4o。支持Docker、Docker Compose、K8s(Helm)、Render、Railway一键部署。
提供Web管理面板,可视化配置模型、密钥、路由、预算。
三、技术细节
1. 架构分层
LiteLLM采用清晰的分层架构,保证高扩展性与稳定性:
接入层:兼容OpenAI的HTTP API入口。
路由层:模型解析、负载均衡、故障转移、限流熔断。
适配层:各厂商模型适配器,负责参数转换、请求转发、结果归一化。
管控层:密钥、用户、项目、预算、缓存、日志。
输出层:统一格式返回、流式处理、异常包装。
2. 核心技术点
适配器模式:为每个厂商编写独立适配器,新增模型只需添加适配器,不影响主逻辑。
异步IO:全链路异步支持,高并发下性能优异。
流式解析:逐字转发SSE流,低延迟对话体验。
令牌计算:内置
tiktoken等多厂商分词器,精准计费。配置热更新:支持运行时修改模型、路由、预算,无需重启。
3. 数据流向
用户请求 → LiteLLM网关/Python SDK。
鉴权与限流检查。
路由选择最优模型/端点。
参数转换为目标厂商格式。
调用模型并获取结果。
格式归一化、日志记录、费用计算。
返回标准OpenAI格式响应。
四、应用场景
1. 个人/小团队快速开发AI应用
只需接入LiteLLM,即可自由切换GPT-4o、Claude 3、Gemini、DeepSeek等模型,无需反复修改代码,适合Chatbot、内容生成、代码助手、翻译工具等。
2. 企业内部统一AI入口
大中型企业通常采购多家模型服务,LiteLLM可部署为内部LLM Gateway,统一出口、统一权限、统一账单,避免密钥泄露、费用超支、使用混乱。
3. AI产品SaaS化交付
SaaS厂商可通过LiteLLM实现:
多租户隔离。
按用户/套餐限速与配额。
成本核算与计费。
一键切换底层模型,不影响前端用户。
4. 高可用生产服务
利用负载均衡、故障转移、重试、缓存,构建7×24小时稳定的AI服务,适合客服、教育、金融、医疗等行业场景。
5. 模型评测与迭代
统一接口方便批量调用不同模型做效果对比、参数调优、AB实验,提升评测效率。

五、使用方法
方式一:Python SDK(最快上手)
安装
pip install litellm
调用示例(多模型完全一致)
from litellm import completion
# OpenAI
response = completion(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)
# Anthropic
response = completion(
model="anthropic/claude-3-5-sonnet-20240620",
messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)
# 国内模型
response = completion(
model="deepseek/deepseek-chat",
messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)
print(response.choices[0].message.content)流式输出
response = completion(
model="openai/gpt-4o",
messages=[{"role": "user", "content": "写一篇100字短文"}],
stream=True
)
for chunk in response:
print(chunk.choices[0].delta.content, end="")方式二:部署独立AI网关(企业推荐)
安装
pip install 'litellm[proxy]'
启动网关
litellm --model gpt-4o
调用网关(和调用OpenAI完全一样)
curl http://localhost:4000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4o",
"messages": [{"role": "user", "content": "Hello!"}]
}'管理面板
浏览器打开:http://localhost:4000/ui,可配置密钥、模型、路由、预算等。
方式三:Docker部署
docker run -p 4000:4000 -e OPENAI_API_KEY=xxx berriai/litellm
六、常见问题解答(FAQ)
LiteLLM是否免费商用?
LiteLLM开源版采用MIT许可证,可免费商用;企业版提供更多安全、审计、定制功能,需付费。
LiteLLM会记录我的数据或密钥吗?
不会。自部署版本所有数据与密钥都在用户环境,LiteLLM官方不收集、不存储、不使用任何用户请求内容与凭证。
支持本地部署的开源模型吗?
支持。可对接Ollama、Llama.cpp、vLLM、HuggingFace TGI等,只需指定对应模型名与地址。
如何实现多模型负载均衡与故障转移?
在配置文件中定义多个模型/密钥,LiteLLM会自动轮询或按权重路由;某一模型出错时自动切换到备用节点。
虚拟密钥是什么,有什么用?
虚拟密钥是LiteLLM生成的代理密钥,不暴露真实API Key,可单独设置限速、预算、权限,方便分发给团队成员或外部用户。
支持向量嵌入(Embedding)吗?
支持。接口与OpenAI Embedding完全兼容,支持text-embedding-ada-002、Cohere Embedding、文心向量、通义向量等。
如何统计费用与token消耗?
LiteLLM自动记录每一次请求的输入/输出token与费用,可通过Web面板、日志、Prometheus查看,支持按项目、用户、密钥、时间维度统计。
现有OpenAI项目迁移成本高吗?
极低。只需把OpenAI客户端地址指向LiteLLM网关,或把openai.ChatCompletion.create替换为litellm.completion,几乎不用改其他代码。
支持多模态(图像、音频)吗?
支持。兼容OpenAI的图像生成、语音转文字、文字转语音等接口,可调用DALL·E、Whisper、Google Imagen、AWS Nova等。
网关可以部署在公网吗?
可以。建议搭配防火墙、HTTPS、访问控制列表使用,企业版还支持SSO、IP白名单、操作审计等。
七、相关链接
GitHub仓库:https://github.com/BerriAI/litellm
托管版服务:https://www.litellm.com/
八、总结
LiteLLM是一款成熟、稳定、生产可用的开源大模型统一调用与网关平台,通过标准化OpenAI接口屏蔽了多厂商模型的差异,同时提供负载均衡、故障转移、成本管控、权限隔离、可观测性等企业级能力,既能满足个人开发者快速集成多模型的需求,也能支撑企业搭建安全、稳定、可管控的AI服务中台,部署简单、扩展灵活、生态完善,是当前大模型应用开发与落地的优选基础组件。
版权及免责申明:本文由@dotaai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/litellm.html

