DB-GPT:开源AI原生数据应用框架,集成Text2SQL与多智能体工作流
一、DB-GPT是什么
DB-GPT 是由 eosphoros-ai 团队开源的AI 原生数据应用开发框架,依托 AWEL 智能工作流编排语言与智能体架构构建,定位为大模型与数据交互领域的底层基础设施。项目核心初衷是简化大模型与数据库、结构化数据、非结构化文档的融合应用开发流程,让企业开发者、业务人员以低代码、少代码的方式,快速搭建专属数据智能应用,适配数据3.0时代模型与数据库深度结合的业务需求。
DB-GPT 并非单一的数据库问答工具,而是一套完整的技术生态体系,整合多模型管理、Text2SQL 精度优化、RAG 检索增强、多智能体协作、工作流编排、模型微调等核心能力,兼容私有化部署、多数据源接入、业务智能分析等场景,开源协议为 MIT,无商用授权门槛,社区生态成熟,GitHub 星标17.4k、分支2.4k,迭代更新活跃。

二、功能特色
DB-GPT 具备模块化、插件化、全场景适配的核心优势,覆盖数据问答、智能分析、模型管理、私有化部署等全维度能力,核心功能特色如下:
私有化知识库与域内问答
支持多格式文档上传解析,适配结构化、非结构化数据统一存储与向量检索,内置自定义数据提取插件,可快速搭建企业专属知识库,实现私有业务数据精准问答。多数据源接入与生成式商业智能(GBI)
无缝兼容 MySQL、PostgreSQL、ClickHouse、Hive 等数据库/数仓,同时支持 Excel 等本地文件接入;可通过自然语言自动生成查询 SQL、数据分析报表、业务洞察结论,无需人工编写代码。多智能体与插件生态
原生兼容 Auto-GPT 插件体系,遵循标准化智能体协议,支持自定义插件拓展功能;搭载数据驱动的多智能体框架,可自主基于数据完成决策、任务拆解与流程执行。自动化 Text2SQL 微调框架
内置轻量化微调流水线,支持 LoRA、QLoRA、Pturning 等主流微调方式,适配 LLaMA、通义千问、百川、智谱 GLM 等数十款开源大模型,在 Spider 数据集上微调精度可达 **82.5%**。SMMF 面向服务多模型管理框架
统一管理开源本地模型与第三方 API 大模型,深度适配 DeepSeek、Qwen、GLM、Llama、Gemma 等主流模型家族,支持模型快速切换、负载调度与版本管理。数据安全与隐私可控
支持本地私有化大模型部署、数据代理脱敏、SQL 执行审计、访问权限隔离,全程数据可内网闭环,满足政务、金融、企业内部敏感数据合规要求。AWEL 智能工作流编排
独有 Agentic Workflow Expression Language 工作流编排能力,可视化配置数据处理、模型推理、任务调度全流程,降低复杂数据应用的开发门槛。模块化工程架构
V0.7.0 及以上版本完成核心模块重构,拆分出 dbgpt-app、dbgpt-core、dbgpt-serve、dbgpt-client 等独立组件,架构解耦清晰,便于二次开发与功能拓展。
三、技术细节
3.1 整体技术架构
DB-GPT 采用分层解耦架构,从上至下分为应用层、编排层、核心能力层、模型适配层、数据源层、基础设施层,各层级独立可拓展:
应用层:Web 交互界面、API 服务、第三方集成接口、低代码应用搭建入口;
编排层:基于 AWEL 实现工作流自定义、多智能体任务协同、插件调度管理;
核心能力层:集成 RAG 检索增强、GBI 生成式商业智能、模型微调、数据工厂清洗加工能力;
模型适配层:SMMF 多模型统一管理框架,对接本地开源模型与云端 API 大模型;
数据源层:适配关系型数据库、数据仓库、Excel 文档、PDF/Word 知识库等多类数据来源;
基础设施层:向量数据库、容器化部署环境、缓存服务、日志审计、权限管控模块。
3.2 核心技术模块解析
RAG 检索增强模块
内置全流程 RAG 流水线,支持文档分片、向量化嵌入、语义检索、上下文召回优化,适配长文档、多文档联合问答,可自定义检索策略与相似度算法。Text2SQL 核心模块
依托大模型语义理解,结合数据库表结构、字段注释、业务元数据,自动生成合规可执行 SQL;支持 SQL 语法纠错、多表关联查询、复杂条件拆解、SQL 性能优化与解释。多智能体框架
采用数据驱动自进化设计,支持智能体角色定义、任务分工、自主决策、结果复盘,可实现数据分析、报表生成、异常预警等自动化业务流程。模型微调模块
轻量化无代码微调流水线,预置 Text2SQL 专用数据集,支持一键启动微调、模型评估、权重导出,适配主流开源大模型全系版本。数据工厂模块
专注大模型时代可信数据处理,提供数据清洗、格式转换、元数据管理、知识库结构化加工能力,为模型推理与业务分析提供高质量数据支撑。
3.3 技术栈与运行环境
开发语言:Python 为主,核心模块采用标准化工程化编码;
部署方式:支持源码部署、Docker 容器部署、Docker-Compose 一键编排;
依赖生态:向量数据库、LLM 推理框架、数据解析组件、前端 Web 框架;
系统兼容:Linux、Windows、国产操作系统,支持国产芯片私有化部署。
3.4 目录核心结构(精简版)
DB-GPT/ ├── configs/ # 项目配置文件、模型/数据库配置模板 ├── docker/ # 容器化部署镜像与配置 ├── docs/ # 官方开发文档、使用教程 ├── examples/ # 应用示例、AWEL工作流模板 ├── pilot/ # 核心业务逻辑、元数据管理 ├── web/ # 前端Web交互界面 ├── requirements/ # 基础依赖、可选依赖配置 └── docker-compose.yml # 一键部署编排文件

四、应用场景
企业内部数据智能问答
业务人员无需掌握 SQL,通过自然语言查询业务数据库、经营报表、库存订单等数据,快速获取统计结果与明细数据。生成式商业智能分析
自动对接企业数仓,完成月度/季度经营分析、销售趋势研判、品类增长分析,自动生成图文分析报告与可视化图表。私有知识库企业落地
上传企业制度、技术文档、培训资料、行业手册,搭建内网专属 AI 知识库,实现员工智能问答、资料检索、业务咨询。低代码数据应用开发
开发者基于 DB-GPT 框架,快速定制行业专属数据应用,如政务数据查询、电商数据分析、制造业生产数据监控等。大模型行业微调落地
针对金融、医疗、教育等垂直领域,基于框架内置微调流水线,快速训练专属 Text2SQL 与行业问答模型。多系统智能协同办公
依托多智能体与插件能力,对接办公系统、业务系统、数据库,实现数据自动同步、异常数据预警、任务自动流转。
五、使用方法
5.1 环境前置要求
Python 版本:3.10 及以上
基础工具:Git、Docker(可选,推荐容器部署)
硬件要求:本地运行7B及以上大模型建议显存 16G 及以上,API 模型无硬件强制要求
5.2 源码部署步骤
克隆项目源码
git clone https://github.com/eosphoros-ai/DB-GPT.git cd DB-GPT
安装项目依赖
# 安装基础核心依赖 pip install -r requirements.txt # 安装可视化、文档解析等扩展依赖 pip install -r requirements-optional.txt
配置核心参数
复制配置示例文件并修改数据库、大模型、向量库相关配置:
cp configs/config_example.yaml configs/config.yaml
编辑 config.yaml,配置大模型接口地址、API 密钥、MySQL/PG 等数据库连接信息、向量库参数。
4. 启动 Web 服务
python pilot/server/dbgpt_server.py
访问使用
启动完成后,浏览器访问http://localhost:8000,即可进入可视化操作界面,添加数据源、创建知识库、发起自然语言问答。
5.3 Docker 一键部署(推荐)
docker-compose up -d
容器会自动拉取依赖镜像、初始化配置,部署完成后直接访问本地8000端口即可使用,无需额外配置环境依赖。
5.4 基础操作流程
登录 Web 后台,添加目标数据库或上传业务文档;
选择关联大模型,配置语义检索与 SQL 生成规则;
输入自然语言指令,系统自动生成 SQL、执行查询、输出分析结论;
可保存对话记录、导出报表、配置自动化工作流。

六、竞品对比
选取 Chat2DB、SQLBot、AiSQL 三款主流开源 Text2SQL 工具与 DB-GPT 进行全方位对比,从定位、核心能力、部署方式、模型适配、生态拓展、商用适配六个维度横向分析:
| 对比维度 | DB-GPT | Chat2DB | SQLBot | AiSQL |
|---|---|---|---|---|
| 项目定位 | AI 原生数据应用开发框架,全生态体系 | 轻量化数据库智能客户端工具 | 专注 Text2SQL 单一场景工具 | 企业级 SQL 智能生成平台 |
| 核心能力 | RAG+GBI+多智能体+工作流+模型微调 | SQL生成、数据库管理、基础问答 | 仅自然语言转SQL、简单数据查询 | SQL生成、SQL优化、慢查询分析 |
| 部署方式 | 源码/Docker/私有化内网部署 | 桌面客户端+Web部署 | 仅源码本地部署 | 云端服务+私有化部署 |
| 模型适配 | 支持数十款开源模型+主流API大模型 | 仅适配主流云端API模型 | 适配少量开源模型 | 以云端专属模型为主 |
| 生态拓展 | AWEL工作流、插件市场、自定义智能体 | 插件较少,无工作流编排 | 无拓展生态,功能固定 | 封闭生态,二次开发门槛高 |
| 商用适配 | MIT开源免费商用,低代码二次开发 | 个人免费、企业版收费 | 开源免费,无商业化适配 | 商业付费为主,开源功能受限 |
对比总结:DB-GPT 优势在于全栈化、可拓展、私有化适配强,不局限于单纯 SQL 生成,具备知识库、智能体、工作流、模型微调等完整能力;其余竞品多聚焦单一场景,生态拓展与定制化开发能力远不及 DB-GPT,更适合轻量化简单使用,而企业级复杂数据应用开发首选 DB-GPT。
七、常见问题解答
Q1:DB-GPT 是否可以免费商用?
A:项目采用 MIT 开源协议,个人与企业均可免费商用,无需支付授权费用,可自由二次开发、定制功能并部署到业务环境。
Q2:新手优先选择源码部署还是 Docker 部署?
A:新手推荐 Docker 一键部署,自动配置所有依赖,规避环境版本冲突;有二次开发、自定义源码需求的用户,选择源码部署更合适。
Q3:DB-GPT 支持本地离线大模型运行吗?
A:完全支持,框架内置 SMMF 多模型管理框架,可本地部署 Qwen、ChatGLM、DeepSeek 等开源大模型,全程内网离线运行,数据不对外传输。
Q4:Text2SQL 生成准确率偏低如何优化?
A:可通过三种方式提升准确率:录入数据库表结构与业务字段注释、使用框架内置微调流水线垂直领域微调、切换精度更高的大模型版本。
Q5:支持哪些类型的数据库和文件格式?
A:数据库兼容 MySQL、PostgreSQL、Oracle、ClickHouse、Hive、Doris 等;文件支持 PDF、Word、Excel、TXT 等常用格式,可直接上传构建知识库。
Q6:是否支持多用户权限管理和数据隔离?
A:支持,具备完善的用户权限、数据源访问隔离、SQL 操作审计功能,不同用户只能访问授权数据库与知识库,满足企业多人协作使用需求。

八、相关链接
GitHub 源码地址:https://github.com/eosphoros-ai/DB-GPT
官方文档地址:https://docs.dbgpt.cn
九、总结
DB-GPT 作为开源 AI 原生数据应用开发框架,打破了传统 Text2SQL 工具功能单一、拓展性不足的局限,集多模型管理、自然语言转SQL、生成式商业智能、RAG 知识库、多智能体协作、工作流编排与模型微调到一体,适配个人开发、企业内部落地、行业定制化应用等多元场景。框架架构模块化清晰,部署方式灵活,兼容私有化离线部署与国产软硬件生态,开源协议宽松无商用限制,社区迭代持续活跃,无论是普通业务人员实现无代码数据查询,还是开发者搭建低代码数据智能应用,亦或是企业构建私有数据问答与分析体系,都具备极高的实用价值与落地价值。
版权及免责申明:本文由@人工智能研究所原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/db-gpt.html

