LiteLLM：BerriAI 开源的多厂商大模型统一调用与管理工具

原创发布日期：2026-03-06

206

一、LiteLLM是什么

LiteLLM是面向大语言模型（LLM）的统一调用层与企业级AI网关，由BerriAI团队开发并开源，核心价值是用一套OpenAI兼容的标准接口，完成对全球100+主流大模型服务的调用、路由、监控与成本管理。它同时提供轻量级Python SDK与可独立部署的Proxy Server，让开发者与企业无需为不同厂商模型编写差异化代码，也无需重复搭建鉴权、限流、计费、日志等基础设施。

简单说，LiteLLM就是大模型时代的“万能适配器+中央控制台”：

对开发者：屏蔽OpenAI、Anthropic、Google、AWS Bedrock、Azure、DeepSeek、通义千问、文心一言等模型的接口差异，一套代码跑遍所有模型。
对企业：提供可落地的LLM Gateway，统一管理密钥、流量、权限、成本与日志，满足生产环境的稳定性、安全性与合规需求。

二、功能特色

1. 超大规模模型兼容

LiteLLM支持100+主流模型服务，覆盖海外头部厂商、国内主流模型、开源模型本地部署等全场景，且持续更新支持新模型。

模型类型	代表厂商/服务
闭源商业模型	OpenAI、Azure OpenAI、Anthropic、Google Gemini、Cohere、Groq
云厂商AI服务	AWS Bedrock、GCP Vertex AI、阿里云、腾讯云、百度智能云
国内主流模型	DeepSeek、通义千问、文心一言、混元、星尘
开源本地模型	Ollama、Llama.cpp、HuggingFace、TGI、vLLM

2. 完全OpenAI兼容接口

这是LiteLLM最核心的优势：

接口路径兼容：/chat/completions、/embeddings、/images、/audio、/batches、/rerank。
参数结构兼容：输入输出与OpenAI完全一致，现有OpenAI代码几乎零改造迁移。
异常兼容：所有厂商错误统一映射为OpenAI异常类型，原有异常处理逻辑直接复用。

3. 企业级AI网关能力

多密钥与虚拟密钥：支持为不同项目/用户生成虚拟密钥，隔离权限、追踪用量，无需暴露真实密钥。
智能路由与负载均衡：支持按成本、延迟、可用性自动路由；支持轮询、权重、故障转移、健康检查。
精细化成本管控：自动计算token消耗与费用，支持项目/用户/密钥级预算、限速、告警。
缓存与重试：内置请求缓存、自动重试、指数退避，提升服务稳定性与降低成本。
多租户与权限：支持团队、项目、角色分级管理，满足企业内部多部门使用。

4. 生产级可观测性

完整日志：记录每一次请求的模型、参数、token、耗时、费用、状态。
监控对接：原生支持Prometheus、Grafana、Langfuse、LangSmith、MLflow等。
告警通知：支持Slack、PagerDuty、Webhook等渠道告警。

5. 部署与使用极简

一行命令启动网关：litellm --model gpt-4o。
支持Docker、Docker Compose、K8s（Helm）、Render、Railway一键部署。
提供Web管理面板，可视化配置模型、密钥、路由、预算。

三、技术细节

1. 架构分层

LiteLLM采用清晰的分层架构，保证高扩展性与稳定性：

接入层：兼容OpenAI的HTTP API入口。
路由层：模型解析、负载均衡、故障转移、限流熔断。
适配层：各厂商模型适配器，负责参数转换、请求转发、结果归一化。
管控层：密钥、用户、项目、预算、缓存、日志。
输出层：统一格式返回、流式处理、异常包装。

2. 核心技术点

适配器模式：为每个厂商编写独立适配器，新增模型只需添加适配器，不影响主逻辑。
异步IO：全链路异步支持，高并发下性能优异。
流式解析：逐字转发SSE流，低延迟对话体验。
令牌计算：内置tiktoken等多厂商分词器，精准计费。
配置热更新：支持运行时修改模型、路由、预算，无需重启。

3. 数据流向

用户请求 → LiteLLM网关/Python SDK。
鉴权与限流检查。
路由选择最优模型/端点。
参数转换为目标厂商格式。
调用模型并获取结果。
格式归一化、日志记录、费用计算。
返回标准OpenAI格式响应。

四、应用场景

1. 个人/小团队快速开发AI应用

只需接入LiteLLM，即可自由切换GPT-4o、Claude 3、Gemini、DeepSeek等模型，无需反复修改代码，适合Chatbot、内容生成、代码助手、翻译工具等。

2. 企业内部统一AI入口

大中型企业通常采购多家模型服务，LiteLLM可部署为内部LLM Gateway，统一出口、统一权限、统一账单，避免密钥泄露、费用超支、使用混乱。

3. AI产品SaaS化交付

SaaS厂商可通过LiteLLM实现：

多租户隔离。
按用户/套餐限速与配额。
成本核算与计费。
一键切换底层模型，不影响前端用户。

4. 高可用生产服务

利用负载均衡、故障转移、重试、缓存，构建7×24小时稳定的AI服务，适合客服、教育、金融、医疗等行业场景。

5. 模型评测与迭代

统一接口方便批量调用不同模型做效果对比、参数调优、AB实验，提升评测效率。

LiteLLM：BerriAI 开源的多厂商大模型统一调用与管理工具

五、使用方法

方式一：Python SDK（最快上手）

安装

pip install litellm

调用示例（多模型完全一致）

from litellm import completion

# OpenAI
response = completion(
  model="openai/gpt-4o",
  messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)

# Anthropic
response = completion(
  model="anthropic/claude-3-5-sonnet-20240620",
  messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)

# 国内模型
response = completion(
  model="deepseek/deepseek-chat",
  messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)

print(response.choices[0].message.content)

流式输出

response = completion(
  model="openai/gpt-4o",
  messages=[{"role": "user", "content": "写一篇100字短文"}],
  stream=True
)
for chunk in response:
  print(chunk.choices[0].delta.content, end="")

方式二：部署独立AI网关（企业推荐）

安装

pip install 'litellm[proxy]'

启动网关

litellm --model gpt-4o

调用网关（和调用OpenAI完全一样）

curl http://localhost:4000/v1/chat/completions \
 -H "Content-Type: application/json" \
 -d '{
  "model": "gpt-4o",
  "messages": [{"role": "user", "content": "Hello!"}]
 }'

管理面板
浏览器打开：http://localhost:4000/ui，可配置密钥、模型、路由、预算等。

方式三：Docker部署

docker run -p 4000:4000 -e OPENAI_API_KEY=xxx berriai/litellm

六、常见问题解答（FAQ）

LiteLLM是否免费商用？

LiteLLM开源版采用MIT许可证，可免费商用；企业版提供更多安全、审计、定制功能，需付费。

LiteLLM会记录我的数据或密钥吗？

不会。自部署版本所有数据与密钥都在用户环境，LiteLLM官方不收集、不存储、不使用任何用户请求内容与凭证。

支持本地部署的开源模型吗？

支持。可对接Ollama、Llama.cpp、vLLM、HuggingFace TGI等，只需指定对应模型名与地址。

如何实现多模型负载均衡与故障转移？

在配置文件中定义多个模型/密钥，LiteLLM会自动轮询或按权重路由；某一模型出错时自动切换到备用节点。

虚拟密钥是什么，有什么用？

虚拟密钥是LiteLLM生成的代理密钥，不暴露真实API Key，可单独设置限速、预算、权限，方便分发给团队成员或外部用户。

支持向量嵌入（Embedding）吗？

支持。接口与OpenAI Embedding完全兼容，支持text-embedding-ada-002、Cohere Embedding、文心向量、通义向量等。

如何统计费用与token消耗？

LiteLLM自动记录每一次请求的输入/输出token与费用，可通过Web面板、日志、Prometheus查看，支持按项目、用户、密钥、时间维度统计。

现有OpenAI项目迁移成本高吗？

极低。只需把OpenAI客户端地址指向LiteLLM网关，或把openai.ChatCompletion.create替换为litellm.completion，几乎不用改其他代码。

支持多模态（图像、音频）吗？

支持。兼容OpenAI的图像生成、语音转文字、文字转语音等接口，可调用DALL·E、Whisper、Google Imagen、AWS Nova等。

网关可以部署在公网吗？

可以。建议搭配防火墙、HTTPS、访问控制列表使用，企业版还支持SSO、IP白名单、操作审计等。

七、相关链接

GitHub仓库：https://github.com/BerriAI/litellm
官方文档：https://docs.litellm.ai/
托管版服务：https://www.litellm.com/

八、总结

LiteLLM是一款成熟、稳定、生产可用的开源大模型统一调用与网关平台，通过标准化OpenAI接口屏蔽了多厂商模型的差异，同时提供负载均衡、故障转移、成本管控、权限隔离、可观测性等企业级能力，既能满足个人开发者快速集成多模型的需求，也能支撑企业搭建安全、稳定、可管控的AI服务中台，部署简单、扩展灵活、生态完善，是当前大模型应用开发与落地的优选基础组件。

打赏

版权及免责申明：本文由@dotaai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/litellm.html

THE END

dotaai

正在和我的聊天机器人谈恋爱，它很会捧场。

+ 关注

LiteLLM：BerriAI 开源的多厂商大模型统一调用与管理工具

文章目录

一、LiteLLM是什么

二、功能特色

1. 超大规模模型兼容

2. 完全OpenAI兼容接口

3. 企业级AI网关能力

4. 生产级可观测性

5. 部署与使用极简

三、技术细节

1. 架构分层

2. 核心技术点

3. 数据流向

四、应用场景

1. 个人/小团队快速开发AI应用

2. 企业内部统一AI入口

3. AI产品SaaS化交付

4. 高可用生产服务

5. 模型评测与迭代

五、使用方法

方式一：Python SDK（最快上手）

方式二：部署独立AI网关（企业推荐）

方式三：Docker部署

六、常见问题解答（FAQ）

七、相关链接

八、总结

相关文章