LiteLLM:BerriAI 开源的多厂商大模型统一调用与管理工具

原创 发布日期:
68

一、LiteLLM是什么

LiteLLM面向大语言模型(LLM)的统一调用层与企业级AI网关,由BerriAI团队开发并开源,核心价值是用一套OpenAI兼容的标准接口,完成对全球100+主流大模型服务的调用、路由、监控与成本管理。它同时提供轻量级Python SDK与可独立部署的Proxy Server,让开发者与企业无需为不同厂商模型编写差异化代码,也无需重复搭建鉴权、限流、计费、日志等基础设施。

简单说,LiteLLM就是大模型时代的“万能适配器+中央控制台”

  • 对开发者:屏蔽OpenAI、Anthropic、Google、AWS Bedrock、Azure、DeepSeek、通义千问、文心一言等模型的接口差异,一套代码跑遍所有模型。

  • 对企业:提供可落地的LLM Gateway,统一管理密钥、流量、权限、成本与日志,满足生产环境的稳定性、安全性与合规需求。

二、功能特色

1. 超大规模模型兼容

LiteLLM支持100+主流模型服务,覆盖海外头部厂商、国内主流模型、开源模型本地部署等全场景,且持续更新支持新模型。

模型类型 代表厂商/服务
闭源商业模型 OpenAI、Azure OpenAI、Anthropic、Google Gemini、Cohere、Groq
云厂商AI服务 AWS Bedrock、GCP Vertex AI、阿里云、腾讯云、百度智能云
国内主流模型 DeepSeek、通义千问、文心一言、混元、星尘
开源本地模型 Ollama、Llama.cpp、HuggingFace、TGI、vLLM

2. 完全OpenAI兼容接口

这是LiteLLM最核心的优势:

  • 接口路径兼容:/chat/completions/embeddings/images/audio/batches/rerank

  • 参数结构兼容:输入输出与OpenAI完全一致,现有OpenAI代码几乎零改造迁移。

  • 异常兼容:所有厂商错误统一映射为OpenAI异常类型,原有异常处理逻辑直接复用。

3. 企业级AI网关能力

  • 多密钥与虚拟密钥:支持为不同项目/用户生成虚拟密钥,隔离权限、追踪用量,无需暴露真实密钥。

  • 智能路由与负载均衡:支持按成本、延迟、可用性自动路由;支持轮询、权重、故障转移、健康检查。

  • 精细化成本管控:自动计算token消耗与费用,支持项目/用户/密钥级预算、限速、告警。

  • 缓存与重试:内置请求缓存、自动重试、指数退避,提升服务稳定性与降低成本。

  • 多租户与权限:支持团队、项目、角色分级管理,满足企业内部多部门使用。

4. 生产级可观测性

  • 完整日志:记录每一次请求的模型、参数、token、耗时、费用、状态。

  • 监控对接:原生支持Prometheus、Grafana、Langfuse、LangSmith、MLflow等。

  • 告警通知:支持Slack、PagerDuty、Webhook等渠道告警。

5. 部署与使用极简

  • 一行命令启动网关:litellm --model gpt-4o

  • 支持Docker、Docker Compose、K8s(Helm)、Render、Railway一键部署。

  • 提供Web管理面板,可视化配置模型、密钥、路由、预算。

三、技术细节

1. 架构分层

LiteLLM采用清晰的分层架构,保证高扩展性与稳定性:

  1. 接入层:兼容OpenAI的HTTP API入口。

  2. 路由层:模型解析、负载均衡、故障转移、限流熔断。

  3. 适配层:各厂商模型适配器,负责参数转换、请求转发、结果归一化。

  4. 管控层:密钥、用户、项目、预算、缓存、日志。

  5. 输出层:统一格式返回、流式处理、异常包装。

2. 核心技术点

  • 适配器模式:为每个厂商编写独立适配器,新增模型只需添加适配器,不影响主逻辑。

  • 异步IO:全链路异步支持,高并发下性能优异。

  • 流式解析:逐字转发SSE流,低延迟对话体验。

  • 令牌计算:内置tiktoken等多厂商分词器,精准计费。

  • 配置热更新:支持运行时修改模型、路由、预算,无需重启。

3. 数据流向

  1. 用户请求 → LiteLLM网关/Python SDK。

  2. 鉴权与限流检查。

  3. 路由选择最优模型/端点。

  4. 参数转换为目标厂商格式。

  5. 调用模型并获取结果。

  6. 格式归一化、日志记录、费用计算。

  7. 返回标准OpenAI格式响应。

四、应用场景

1. 个人/小团队快速开发AI应用

只需接入LiteLLM,即可自由切换GPT-4o、Claude 3、Gemini、DeepSeek等模型,无需反复修改代码,适合Chatbot、内容生成、代码助手、翻译工具等。

2. 企业内部统一AI入口

大中型企业通常采购多家模型服务,LiteLLM可部署为内部LLM Gateway,统一出口、统一权限、统一账单,避免密钥泄露、费用超支、使用混乱。

3. AI产品SaaS化交付

SaaS厂商可通过LiteLLM实现:

  • 多租户隔离。

  • 按用户/套餐限速与配额。

  • 成本核算与计费。

  • 一键切换底层模型,不影响前端用户。

4. 高可用生产服务

利用负载均衡、故障转移、重试、缓存,构建7×24小时稳定的AI服务,适合客服、教育、金融、医疗等行业场景。

5. 模型评测与迭代

统一接口方便批量调用不同模型做效果对比、参数调优、AB实验,提升评测效率。

LiteLLM:BerriAI 开源的多厂商大模型统一调用与管理工具

五、使用方法

方式一:Python SDK(最快上手)

  1. 安装

pip install litellm
  1. 调用示例(多模型完全一致)

from litellm import completion

# OpenAI
response = completion(
  model="openai/gpt-4o",
  messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)

# Anthropic
response = completion(
  model="anthropic/claude-3-5-sonnet-20240620",
  messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)

# 国内模型
response = completion(
  model="deepseek/deepseek-chat",
  messages=[{"role": "user", "content": "介绍一下LiteLLM"}]
)

print(response.choices[0].message.content)
  1. 流式输出

response = completion(
  model="openai/gpt-4o",
  messages=[{"role": "user", "content": "写一篇100字短文"}],
  stream=True
)
for chunk in response:
  print(chunk.choices[0].delta.content, end="")

方式二:部署独立AI网关(企业推荐)

  1. 安装

pip install 'litellm[proxy]'
  1. 启动网关

litellm --model gpt-4o
  1. 调用网关(和调用OpenAI完全一样)

curl http://localhost:4000/v1/chat/completions \
 -H "Content-Type: application/json" \
 -d '{
  "model": "gpt-4o",
  "messages": [{"role": "user", "content": "Hello!"}]
 }'
  1. 管理面板
    浏览器打开:http://localhost:4000/ui,可配置密钥、模型、路由、预算等。

方式三:Docker部署

docker run -p 4000:4000 -e OPENAI_API_KEY=xxx berriai/litellm

六、常见问题解答(FAQ)

LiteLLM是否免费商用?

LiteLLM开源版采用MIT许可证,可免费商用;企业版提供更多安全、审计、定制功能,需付费。

LiteLLM会记录我的数据或密钥吗?

不会。自部署版本所有数据与密钥都在用户环境,LiteLLM官方不收集、不存储、不使用任何用户请求内容与凭证。

支持本地部署的开源模型吗?

支持。可对接Ollama、Llama.cpp、vLLM、HuggingFace TGI等,只需指定对应模型名与地址。

如何实现多模型负载均衡与故障转移?

在配置文件中定义多个模型/密钥,LiteLLM会自动轮询或按权重路由;某一模型出错时自动切换到备用节点。

虚拟密钥是什么,有什么用?

虚拟密钥是LiteLLM生成的代理密钥,不暴露真实API Key,可单独设置限速、预算、权限,方便分发给团队成员或外部用户。

支持向量嵌入(Embedding)吗?

支持。接口与OpenAI Embedding完全兼容,支持text-embedding-ada-002、Cohere Embedding、文心向量、通义向量等。

如何统计费用与token消耗?

LiteLLM自动记录每一次请求的输入/输出token与费用,可通过Web面板、日志、Prometheus查看,支持按项目、用户、密钥、时间维度统计。

现有OpenAI项目迁移成本高吗?

极低。只需把OpenAI客户端地址指向LiteLLM网关,或把openai.ChatCompletion.create替换为litellm.completion,几乎不用改其他代码。

支持多模态(图像、音频)吗?

支持。兼容OpenAI的图像生成、语音转文字、文字转语音等接口,可调用DALL·E、Whisper、Google Imagen、AWS Nova等。

网关可以部署在公网吗?

可以。建议搭配防火墙、HTTPS、访问控制列表使用,企业版还支持SSO、IP白名单、操作审计等。

七、相关链接

八、总结

LiteLLM是一款成熟、稳定、生产可用的开源大模型统一调用与网关平台,通过标准化OpenAI接口屏蔽了多厂商模型的差异,同时提供负载均衡、故障转移、成本管控、权限隔离、可观测性等企业级能力,既能满足个人开发者快速集成多模型的需求,也能支撑企业搭建安全、稳定、可管控的AI服务中台,部署简单、扩展灵活、生态完善,是当前大模型应用开发与落地的优选基础组件。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。