Dograh AI:开源私有化语音AI智能体,拖拽式快速搭建电话机器人

原创 发布日期:
66

一、Dograh AI是什么

Dograh AI是一款开源免费、支持私有化部署的实时语音人工智能智能体开发平台,项目由具备创业与技术研发经验的专业团队维护,遵循BSD 2-Clause宽松开源协议,个人开发者、企业团队均可免费使用、二次修改与商用部署。

该项目核心对标商用付费语音机器人SaaS平台,打破商用语音平台厂商锁定、数据托管受限、定制成本高昂的弊端。依托低代码可视化拖拽编排模式,用户无需深厚语音开发功底,短时间内即可搭建具备实时通话、语音交互、逻辑应答能力的电话语音机器人。平台兼容主流通话网关、大语言模型、语音转文字与文字转语音模型,同时提供本地容器化部署、云端托管双重使用模式,兼顾个人调试、中小企业业务落地与大型企业数据自主管控需求,是当下轻量化语音智能体落地的实用开源解决方案。

二、功能特色

  1. 低代码可视化流程编排
    平台内置可视化操作面板,采用拖拽式编辑逻辑搭建语音对话流程,无需编写大量代码即可设定问答话术、分支判断、通话转接、挂断触发等规则,零基础人员也能快速完成机器人逻辑配置。

  2. 全链路实时语音交互
    支持低延迟双向语音对话,人声识别、语音播报响应流畅自然,还原真人通话体验,满足长时间连续通话、多轮问答交互场景使用。

  3. 多渠道通话接入兼容
    原生集成Twilio、Vonage等主流电话通信通道,支持电话呼入、主动外呼、人工客服无缝转接三类基础通话模式,适配常规通讯业务对接需求。

  4. 自定义语音模型自由接入
    不绑定固定语音模型,用户可自主接入任意开源、商用STT语音转文字模型、TTS文字转语音模型以及LLM大语言模型,按需匹配音色、识别精度与应答风格。

  5. 便捷线上自测调试能力
    后台搭载Web网页通话测试功能,无需外接实体电话线路、通信硬件,在浏览器内即可直接发起通话测试,实时校验对话逻辑、语音效果与应答准确性,大幅缩减调试周期。

  6. 灵活部署与权限管控
    提供Docker容器一键部署方案,支持本地电脑、私有服务器离线私有化部署,数据全程留存自有设备;同时官方提供云端托管服务,适配不同团队部署偏好。

  7. 标准化开发接口配套
    配套Python、Node.js多语言SDK与专属API密钥,可与企业现有办公系统、业务管理平台、客户管理系统打通对接,实现语音业务数据互通联动。

Dograh AI:开源私有化语音AI智能体,拖拽式快速搭建电话机器人

三、技术细节

3.1 整体技术架构

项目采用前后端分离模块化架构,各功能模块独立解耦,降低维护与二次开发难度,整体架构分工清晰:

  • 业务后端:以FastAPI作为核心服务框架,承担接口请求处理、对话逻辑运算、模型调度、通话状态管理核心工作,高并发适配多线路同时通话场景。

  • 实时通讯:基于WebRTC实时音视频传输协议、pipecat语音处理框架,保障语音数据流低延迟传输,规避通话卡顿、声音断层问题。

  • 前端界面:使用Next.js框架开发可视化管理面板,页面交互流畅,拖拽编辑、参数配置、数据查看操作直观易懂。

  • 网络穿透:集成Coturn服务,解决内网部署场景下的音视频网络穿透难题,保障跨网络通话正常连通。

3.2 部署运行技术

全程基于Docker、Docker Compose容器化打包封装,所有运行依赖、环境配置内置镜像,使用者无需手动配置系统环境、安装程序组件,一条命令即可完成整套服务拉取、启动运行,兼容主流Linux服务器、本地PC系统。搭配Nginx反向代理服务,优化访问链路,提升面板访问稳定性与访问速度。

3.3 模型与数据处理机制

语音识别、语音合成、智能问答三大模块相互独立调度,服务仅负责调用对接外部模型接口,不强制绑定模型内核。通话语音数据、对话记录、配置数据默认存储于部署本地服务器,私有化部署模式下外部无法调取数据,保障业务数据隐私安全。

3.4 程序版本与运行基础

项目持续迭代更新,当前稳定版本为v1.31.0,不断修复通话漏洞、优化交互体验、拓展兼容通道。运行无严苛硬件门槛,普通服务器、家用主机均可承载基础语音机器人运行,扩容可支撑企业级批量通话业务。

四、应用场景

  • 智能客服接待:企业进线咨询电话自动应答,解答产品价格、售后流程、营业时间等常规问题,分流基础咨询,减轻人工客服工作压力。

  • 营销外呼筛选:批量外呼客户电话,自动推送业务介绍,筛选意向客户并分类标记,为线下销售团队精准推送有效客源。

  • 政务便民语音咨询:社区、政务单位搭建语音问答机器人,解答办事材料、办理流程、政策相关常见问题。

  • 通知回访语音播报:自动发起电话回访、缴费提醒、活动通知、售后回访等批量语音通知工作,替代人工重复拨号通话。

  • 个人语音助手调试:开发者用于语音交互逻辑、大模型对话能力测试,快速验证语音项目开发思路。

五、使用方法

5.1 容器化一键部署

打开服务器终端,执行下方部署命令,自动拉取项目镜像并启动服务

curl -o docker-compose.yaml https://raw.githubusercontent.com/dograh-hq/dograh/main/docker-compose.yaml && REGISTRY=ghcr.io/dograh-hq ENABLE_TELEMETRY=true docker compose up --pull always

5.2 后台页面访问

部署完成后,在浏览器输入本地访问地址:http://localhost:3010,进入Dograh AI管理控制台,完成账号初始化设置。

5.3 创建语音智能体

  1. 在控制台首页点击新建机器人项目,标注机器人使用用途与业务类型;

  2. 采用拖拽方式编辑对话流程,设置问答内容、分支跳转、转接规则;

  3. 按需绑定STT、TTS、LLM对应模型接口,调整语音音色、应答语速参数。

5.4 线上测试与正式启用

  1. 点击页面Web Call测试按钮,网页内发起模拟通话,核验对话逻辑与语音效果;

  2. 接入Twilio、Vonage通话线路,配置呼入、外呼权限;

  3. 调试无误后正式上线,投入实际电话通话业务使用。

5.5 系统对接拓展

调用平台配套SDK与API接口,将语音机器人嵌入企业现有业务系统,实现数据同步、业务联动运行。

六、竞品对比

选取行业主流两款商用语音智能体平台Vapi、Retell,与Dograh AI进行多维度对比:

对比维度 Dograh AI Vapi Retell
开源属性 BSD 2-Clause完全开源,可修改源码 闭源商用软件,无源码权限 闭源商用软件,禁止二次开发
部署模式 本地私有化部署+云端托管双模式 仅官方云端SaaS部署 仅官方云端SaaS部署
模型使用权限 自由对接各类第三方语音、大模型 仅限平台内置模型,无法外接自定义模型 模型绑定平台,自定义接入受限
数据管控 数据存储自有设备,自主掌控 数据留存厂商云端平台 数据统一托管服务商服务器
厂商绑定程度 无绑定,可随意迁移服务 高度绑定,无法脱离平台使用 平台绑定,迁移成本极高
商用成本 开源免费,无基础使用费 按通话时长、线路按量收费 阶梯式套餐收费,长期使用成本偏高

七、常见问题解答

Dograh AI部署对服务器系统有要求吗?

项目依托Docker容器运行,主流Linux系统均可正常部署,Windows、macOS系统也可借助容器工具完成本地调试部署,适配性广泛。

私有化部署后通话数据会不会泄露?

私有化部署场景下所有通话录音、对话内容、配置信息均存储在自身服务器中,平台官方无法获取本地数据,能够有效保障数据隐私安全。

零基础代码基础可以使用该项目搭建语音机器人吗?

可以,平台核心操作依靠可视化拖拽完成,无需编写代码,仅部署环节执行简单终端命令,普通使用者也能独立完成机器人搭建调试。

是否能够商用落地使用?

项目遵循宽松BSD 2-Clause开源协议,个人、企业均可免费商用,也支持基于源码进行功能修改与二次开发。

无法接入外部自定义语音模型是什么原因?

大概率是模型接口参数填写错误、网络访问受限,核对接口地址、密钥信息,同时检查服务器网络连通状态即可排查解决。

Web网页测试通话无声音该如何处理?

优先检查浏览器麦克风、扬声器权限是否开启,其次查看服务运行状态与音视频传输配置,重启服务后重新发起测试即可。

八、相关链接

九、总结

Dograh AI凭借开源免费、私有化部署的核心优势,补齐了商用语音智能体平台数据管控弱、定制门槛高、使用成本昂贵的短板,搭配低代码可视化编辑、多模型兼容、网页自测等实用功能,既降低了语音机器人的开发搭建门槛,也满足企业对于数据自主可控的核心需求。项目技术架构成熟稳定,部署方式简单便捷,可灵活适配客服接待、营销外呼、通知回访等多元化语音业务场景,同时开放源码与开发接口,支持开发者深度定制拓展,是兼顾个人学习开发与企业实际业务落地的优质开源实时语音AI智能体平台。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。