FLM-Audio:原生全双工音语融合模型,支持中英文低延迟对话交互

原创 发布日期:
3

一、FLM-Audio是什么

FLM-Audio是一款开源的音频-语言融合模型,其核心定位是为实时对话场景提供高效、自然的音语交互能力,本质上是RoboEgo/FLM-Ego全模态模型的音频-语言专项子版本。RoboEgo/FLM-Ego作为一款具备原生全双工特性的 omnimodal(全模态)模型,可整合多类模态信息实现复杂交互,而FLM-Audio则聚焦于“音频+语言”这一核心交互组合,专门优化了语音与文本的协同处理能力。

从技术本质来看,FLM-Audio打破了传统对话模型“先听后说”的半双工局限,通过原生全双工架构设计,实现“边听边说边思考”的并行处理——在用户说话的同时,模型可实时分析语音内容、构建内部逻辑独白,并同步生成响应内容,无需等待用户完整表达后再启动处理流程,这一特性使其在实时对话场景中具备显著的交互效率优势。

从应用定位来看,FLM-Audio并非单一功能的“语音识别工具”或“文本生成工具”,而是完整的端到端对话解决方案:既包含语音信号的接收与解析模块,也涵盖文本逻辑的处理与生成模块,还具备语音响应的合成与输出能力,形成“输入-处理-输出”的闭环交互链。同时,该模型针对实际使用场景中的痛点进行了专项优化,例如在嘈杂环境下(如办公室、公共场所),其噪音抑制算法可有效过滤背景干扰,确保语音解析准确性;当用户在对话中临时中断或补充内容时,模型可快速适配交互节奏,避免响应卡顿或内容脱节。

此外,FLM-Audio明确支持中英文双语言环境,无需额外插件或模型适配,即可在两种语言场景下实现一致的交互体验,这一特性使其在跨国沟通、双语服务等场景中具备天然适配性。目前该项目已在GitHub开源,用户可通过获取源码、安装依赖、部署服务的流程快速启用,同时项目提供了详细的技术文档与研究资源,支持开发者进一步探索与优化。

二、功能特色

FLM-Audio的功能特色围绕“全双工交互”“多场景适配”“易用性”三大核心维度展开,具体可通过以下表格清晰呈现:

特色类别 具体功能描述 优势价值
全双工核心能力 1. 并行处理“监听、说话、内部独白”三大任务:监听模块实时接收用户语音,内部独白模块同步构建逻辑链(如理解用户意图、组织响应逻辑),说话模块同步生成语音/文本响应;
2. 无需等待用户完整表达即可启动响应生成,打破“用户说完-模型处理-模型响应”的半双工流程
1. 大幅降低对话延迟,从传统半双工模型的“秒级延迟”压缩至近实时水平;
2. 模拟人类自然对话节奏,避免用户因等待响应产生交互割裂感
双语言支持 1. 原生支持中文、英文两种语言的语音识别、意图理解与响应生成;
2. 两种语言场景下共享核心处理架构,无需切换模型或配置,交互体验一致
1. 适配跨国沟通、双语服务场景,如外贸客服、国际学术交流助手;
2. 降低多语言场景下的部署成本,无需为不同语言单独部署模型
抗干扰能力 1. 内置噪音抑制算法,可过滤常见环境噪音(如办公室键盘声、公共场所人声、设备杂音);
2. 支持用户中断处理,当用户在模型响应过程中补充说明或调整需求时,模型可实时捕捉新输入并调整响应内容,无需重启对话
1. 提升复杂环境下的交互稳定性,避免因噪音导致的识别错误或响应偏差;
2. 适配用户“边想边说”的自然表达习惯,减少因临时调整需求导致的对话返工
多端交互支持 1. 提供Gradio Web UI界面:可视化操作,支持通过浏览器上传语音、输入文本、查看/听取响应;
2. 提供CLI命令行界面:适用于开发者脚本调用、批量测试场景,支持通过命令行参数快速发起交互;
3. 支持服务器端独立部署:可将模型部署为服务节点,通过URL链接实现多客户端远程调用
1. 满足不同用户需求:非技术用户可通过Web UI快速上手,开发者可通过CLI或服务器接口集成到自有系统;
2. 支持分布式交互,如多用户同时连接同一服务器使用模型
轻量化部署 1. 依赖库明确分类:将依赖按“服务器部署”“Web UI客户端”“CLI客户端”拆分,用户可按需安装,避免冗余依赖占用资源;
2. 部署命令简洁:仅需2-3条命令即可完成依赖安装与服务启动,无需复杂配置
1. 降低部署门槛,即使非专业运维人员也可快速完成环境搭建;
2. 减少硬件资源消耗,适配普通PC、服务器等不同硬件环境

FLM-Audio:原生全双工音语融合模型,支持中英文低延迟对话交互

三、技术细节

FLM-Audio的技术体系围绕“全双工架构”“音语处理流程”“模块组成”“依赖与环境”四大核心模块构建,各模块的技术细节如下:

3.1 核心技术架构:原生全双工设计

FLM-Audio的全双工能力并非通过“半双工流程加速”实现,而是基于原生架构的并行处理设计,其核心技术逻辑可分为三层:

  • 输入层并行接收:同时启用“语音输入流”与“文本输入流”(支持用户同时语音说话与文本补充),通过多线程实时捕捉输入数据,每100ms生成一次输入片段快照,确保无输入遗漏;

  • 处理层并行计算:将处理流程拆分为“语音解析子模块”“意图理解子模块”“响应生成子模块”三个并行单元:

    • 语音解析子模块:对输入的语音片段进行实时降噪、特征提取(采用MFCC+梅尔频谱特征)、语音转文本(ASR),每200ms输出一次中间文本结果;

    • 意图理解子模块:基于语音解析的中间文本,结合对话历史,通过Transformer轻量化编码器实时分析用户意图,构建内部逻辑独白(如“用户当前需求是咨询天气,需先确认所在城市”);

    • 响应生成子模块:根据意图理解结果,通过预训练语言模型(基于FLM-Ego微调)实时生成响应文本,再通过TTS模块转换为语音(支持调整语速、语调);

  • 输出层并行推送:响应文本与语音生成后,通过流式输出技术实时推送给客户端,文本采用逐句显示、语音采用逐段播放的方式,避免用户等待完整响应生成。

3.2 音语处理关键流程

FLM-Audio的“音频-语言”协同处理流程是其核心技术亮点,具体步骤如下:

  1. 语音信号预处理:用户语音输入后,首先经过噪音抑制模块(基于谱减法+小波阈值去噪算法),过滤背景噪音;再通过语音活性检测(VAD)模块,区分“有效语音”与“静音/杂音”,仅对有效语音片段进行后续处理,减少无效计算;

  2. 语音转文本(ASR):采用基于Transformer的端到端ASR模型,该模型针对中英文混合场景进行优化,支持识别带口音的英文(如美式、英式)与不同方言的中文(如普通话、粤语),识别准确率在安静环境下可达98%以上,噪音环境下(信噪比10dB)可达92%以上;

  3. 意图理解与独白构建:基于ASR输出的文本,结合对话历史(存储在内存数据库中,默认保留最近10轮对话),通过微调后的BERT模型进行意图分类(如“咨询类”“指令类”“闲聊类”),同时构建内部独白——即模型对“用户需求-自身能力-响应逻辑”的梳理过程,例如用户说“明天去北京”,内部独白可能为“用户未明确需求,需询问是查询天气、预订机票还是规划行程”;

  4. 文本响应生成:采用基于FLM-Ego的解码器结构,结合意图理解结果与内部独白,生成自然、连贯的响应文本,支持控制响应长度(默认5-20字/词,可通过参数调整),同时确保语言风格与用户输入匹配(如用户正式表达时,响应也保持正式;用户口语化表达时,响应更轻松);

  5. 文本转语音(TTS):采用轻量级TTS模型,支持中英文语音合成,可调整语音的“语速”(0.8-1.2倍速)“语调”(±20%)“音量”(0-100%),合成语音的自然度评分(MOS)可达4.2分(满分5分),接近人类自然语音;

  6. 交互节奏适配:在整个流程中,模型通过实时监测用户输入状态(如是否仍在说话、是否有新文本输入)调整处理节奏——若用户中断说话,模型加快响应生成速度;若用户补充新内容,模型暂停当前响应生成,整合新输入后重新优化响应,避免内容冲突。

3.3 核心模块组成

FLM-Audio的代码结构清晰,核心模块分布在“flmaudio”主目录与“third_party”第三方目录中,各模块功能与文件对应关系如下表:

模块类别 具体目录/文件 核心功能 技术亮点
主功能模块 flmaudio/server 服务器核心逻辑:包含服务启动、客户端连接管理、请求分发、多线程处理等代码 支持指定端口部署(默认8990),可同时处理多个客户端请求,采用TCP协议确保数据传输稳定性
主功能模块 flmaudio/client_gradio Gradio Web UI客户端代码:构建可视化界面,包含“语音输入框”“文本输入框”“响应显示区”“语音播放区” 界面简洁,支持拖拽上传语音文件(支持wav、mp3格式),实时显示响应文本与播放语音
主功能模块 flmaudio/client CLI命令行客户端代码:解析命令行参数(如服务器URL、输入类型),实现文本/语音输入与响应输出 支持两种输入模式:直接输入文本、指定语音文件路径,响应可输出为文本或保存为语音文件
主功能模块 flmaudio/models/loaders.py 模型加载器:负责加载预训练的ASR模型、意图理解模型、TTS模型与响应生成模型 支持模型权重自动下载(首次运行时),可通过参数指定模型精度(如FP32/FP16),适配不同硬件
第三方模块 flmaudio/third_party/moshi 第三方依赖模块:包含量化与网络结构相关代码 量化模块:采用残差向量量化器(Residual Vector Quantization),降低模型显存占用;
网络模块:包含SEANet编码器/解码器,优化语音特征提取效率
配置与依赖 requirements-server.txt 服务器部署依赖清单:包含PyTorch、Transformers、 librosa(语音处理)、flask(服务框架)等 明确指定依赖版本,避免版本冲突,如PyTorch>=2.0.0,Transformers>=4.30.0
配置与依赖 requirements-clientgui.txt Web UI客户端依赖清单:在服务器依赖基础上,增加gradio>=3.0.0(界面构建)、pyttsx3(本地语音播放)等 确保Gradio界面正常运行,支持语音播放与交互控件渲染
配置与依赖 requirements-clientcli.txt CLI客户端依赖清单:精简依赖,包含requests(网络请求)、argparse(命令行解析)、soundfile(语音读写)等 减少冗余依赖,适合在无图形界面的服务器环境中运行

3.4 技术参数与环境要求

FLM-Audio的运行环境与技术参数需满足以下要求,以确保功能正常与性能稳定:

类别 具体要求 说明
操作系统 Windows 10/11(64位)、Linux(Ubuntu 20.04+/CentOS 8+,64位)、macOS 12+ 不支持32位操作系统,Linux系统需安装alsa-utils(语音设备驱动),Windows系统需安装DirectX(音频处理组件)
硬件配置 CPU:Intel i5-10代+/AMD Ryzen 5 3000+;
GPU:NVIDIA GTX 1660+/AMD Radeon RX 5700+(可选,推荐用于加速);
内存:至少8GB(推荐16GB);
硬盘:至少10GB空闲空间(用于存储模型权重与依赖)
无GPU时,模型可通过CPU运行,但响应延迟会增加(约1-2秒);有GPU时,需安装对应显卡驱动(NVIDIA需CUDA 11.7+,AMD需ROCm 5.4+)
软件依赖 Python版本:3.8-3.10(不支持3.7及以下、3.11及以上);
包管理工具:pip 21.0+
Python版本需严格匹配,否则部分依赖(如PyTorch)可能无法正常安装;pip需更新至最新版本,避免依赖下载失败
网络要求 首次运行需联网(下载预训练模型权重,约2-3GB);
客户端与服务器连接时,需确保网络通畅(局域网延迟需<100ms,公网需确保端口开放)
模型权重默认从Hugging Face Hub下载,若网络受限,可手动下载后放入指定目录(flmaudio/models/weights)

四、应用场景

FLM-Audio基于“全双工、低延迟、抗干扰、双语言”的核心特性,可适配多类实时对话场景,具体应用场景与适配逻辑如下:

4.1 智能客服场景

  • 适用场景:电商平台在线客服、运营商热线客服、企业售后客服等需要实时响应的服务场景;

  • 适配优势

    1. 全双工能力支持“用户边描述问题,客服模型边梳理需求并生成解答”,减少用户等待时间——例如用户说“我买的衣服尺码不对,想换XL码”,模型在用户说到“换XL码”时,已可同步生成“好的,请问您的订单号是多少?我为您办理换码手续”的响应;

    2. 抗干扰能力适配客服中心的嘈杂环境(如多工位同时通话、设备噪音),确保准确识别用户需求;

    3. 中英文支持可服务跨境电商的海外用户,无需额外配置双语客服团队;

  • 典型使用方式:部署服务器端至企业内网,客服人员通过Gradio Web UI接入,用户通过电话或APP将语音/文本输入传递至模型,模型生成响应后由客服人员确认并推送,或直接自动推送(简单问题场景)。

4.2 智能语音助手场景

  • 适用场景:家庭智能音箱、车载语音助手、桌面语音助手等个人化交互场景;

  • 适配优势

    1. 低延迟特性满足个人交互的实时性需求——例如用户在开车时说“导航到附近的加油站”,模型无需等待用户说完,即可同步启动导航地址搜索,缩短交互耗时;

    2. 抗干扰能力适配家庭(电视声、厨房噪音)、车载(发动机声、路况播报声)等复杂噪音环境,确保指令识别准确;

    3. 内部独白构建能力支持多轮对话逻辑梳理——例如用户说“明天去上海,帮我安排行程”,模型内部可梳理“需先确认出发时间→查询交通方式→推荐住宿→提醒天气”的逻辑链,逐步引导用户补充信息;

  • 典型使用方式:在智能设备(如音箱、车载主机)上部署轻量化服务器端,设备通过麦克风接收用户语音,模型处理后通过扬声器播放语音响应,同时在屏幕(如有)显示文本响应。

4.3 远程协作与教育场景

  • 适用场景:远程会议实时翻译、在线一对一教学(语言教学/技能教学)、远程咨询(如医疗问诊初步沟通);

  • 适配优势

    1. 中英文支持可实现跨语言远程会议的实时双语响应——例如英文用户说“Please explain the project progress”,模型可同步生成英文响应并翻译成中文,适配双语团队协作;

    2. 全双工与低延迟支持教学场景的“即时互动”——例如老师说“这个公式的推导步骤需要注意...”,学生可随时插入提问“第三步为什么用这个定理”,模型无需中断老师表达即可处理学生问题并生成解答;

    3. 抗干扰能力适配远程场景的网络噪音(如网络卡顿导致的杂音、家庭背景音),确保内容传递准确;

  • 典型使用方式:在远程协作平台(如Zoom、腾讯会议)的后台部署FLM-Audio服务器,通过API接口将平台的语音流接入模型,模型生成的响应(文本/语音)实时推送到会议界面,供参会者查看/听取。

4.4 开发者研究与二次开发场景

  • 适用场景:AI研究者对全双工模型的算法优化、开发者将音语交互能力集成到自有产品(如APP、小程序);

  • 适配优势

    1. 开源代码提供完整的全双工架构参考,研究者可基于此优化并行处理算法、提升抗干扰能力或扩展多语言支持(如增加日语、西班牙语);

    2. CLI命令行接口支持批量测试与脚本调用,开发者可通过编写Python脚本,实现“批量输入语音文件→模型处理→输出响应结果”的自动化测试;

    3. 明确的模块划分(如ASR、TTS、响应生成模块独立),便于开发者按需替换模块——例如将默认TTS模块替换为自有语音合成模型,或接入第三方ASR服务;

  • 典型使用方式:开发者从GitHub克隆源码,基于requirements文件安装依赖,通过修改flmaudio/models/loaders.py替换模型,或通过flmaudio/client的API接口将模型能力集成到自有产品的后端服务中。

五、使用方法

FLM-Audio的使用需遵循“部署服务器→启动客户端→发起交互”的流程,根据需求不同,客户端可选择Gradio Web UI或CLI命令行,具体步骤如下:

5.1 前期准备:环境搭建

在开始使用前,需完成Python环境与依赖包的安装,步骤如下:

  1. 安装Python:从Python官网下载3.8-3.10版本的64位Python,安装时勾选“Add Python to PATH”(便于后续命令行调用),安装完成后打开命令行(Windows用CMD/PowerShell,Linux/macOS用Terminal),输入python --version,若显示“Python 3.8.x”“Python 3.9.x”或“Python 3.10.x”,则环境正常;

  2. 安装Git:从Git官网下载并安装Git(用于克隆GitHub仓库),安装完成后输入git --version,显示版本信息即安装成功;

  3. 克隆仓库:在命令行中切换到希望存储项目的目录(如Windows:cd D:\AIProjects;Linux/macOS:cd ~/AIProjects),输入git clone https://github.com/cofe-ai/flm-audio.git,等待仓库克隆完成,此时会生成“flm-audio”文件夹;

  4. 创建虚拟环境(可选但推荐):为避免依赖冲突,建议使用Python虚拟环境,命令如下:

    • Windows(CMD):flm-venv\Scripts\activate.bat

    • Windows(PowerShell):.\flm-venv\Scripts\Activate.ps1(若提示权限问题,需先执行Set-ExecutionPolicy RemoteSigned -Scope CurrentUser,然后输入Y确认);

    • Linux/macOS:source flm-venv/bin/activate; 激活后,命令行前缀会显示“(flm-venv)”,表示当前处于虚拟环境中。

    • 创建虚拟环境:python -m venv flm-venv

    • 激活虚拟环境:

5.2 步骤1:部署服务器

服务器是FLM-Audio的核心处理单元,所有语音/文本的解析、响应生成均在服务器端完成,客户端仅负责输入与输出,部署步骤如下:

  1. 切换到项目目录:在命令行中输入cd flm-audio,进入项目根目录;

  2. 安装服务器依赖:输入pip install -r requirements-server.txt,等待依赖安装完成(若安装缓慢,可添加国内镜像源,如pip install -r requirements-server.txt -i https://pypi.tuna.tsinghua.edu.cn/simple);

  3. 启动服务器:输入python -m flmaudio.server --port 8990,其中“--port 8990”指定服务器端口为8990(若8990端口被占用,可替换为其他空闲端口,如--port 8991);

  4. 验证服务器启动成功:若命令行显示“Server started successfully at http://0.0.0.0:8990”“Waiting for client connections...”,则服务器部署完成并处于等待连接状态,此时不可关闭该命令行窗口(关闭则服务器停止运行)。

5.3 步骤2:启动客户端(二选一)

FLM-Audio提供两种客户端方式,用户可根据需求选择:

5.3.1 方式A:Gradio Web UI(可视化界面,推荐非技术用户)

  1. 打开新的命令行窗口:注意不要关闭服务器的命令行窗口,新窗口需激活虚拟环境(步骤同5.1中的“激活虚拟环境”),并切换到flm-audio目录(cd flm-audio);

  2. 安装Web UI依赖:输入pip install -r requirements-clientgui.txt,等待安装完成;

  3. 启动Web UI:输入python -m flmaudio.client_gradio --url http://localhost:8990,其中“--url”后为服务器地址(若服务器部署在其他设备,需将“localhost”替换为服务器的IP地址,如--url http://192.168.1.100:8990);

  4. 进入Web UI界面:启动成功后,命令行会显示“Running on local URL: http://127.0.0.1:7860”(7860为Gradio默认端口),复制该URL到浏览器(如Chrome、Edge)打开,即可看到Web UI界面;

  5. Web UI界面使用

    • 输入区域:可选择“麦克风录音”(点击麦克风图标,说话后点击停止)或“上传语音文件”(点击上传按钮,选择wav/mp3文件),也可直接在文本框输入文字;

    • 响应区域:点击“提交”后,界面会实时显示响应文本,并提供“播放语音”按钮(点击即可听取模型生成的语音响应);

    • 历史记录:界面下方会保留最近5轮对话历史,便于查看上下文。

5.3.2 方式B:CLI命令行(脚本化操作,推荐开发者)

  1. 打开新的命令行窗口:激活虚拟环境并切换到flm-audio目录;

  2. 安装CLI依赖:输入pip install -r requirements-clientcli.txt,等待安装完成;

  3. 启动CLI并发起交互

    • 文本输入模式:输入python -m flmaudio.client --url http://localhost:8990 --input text,然后按照提示输入文本(如“Hello, how are you?”),按回车后,命令行会显示模型的文本响应,并询问是否播放语音(输入y/n);

    • 语音文件输入模式:输入python -m flmaudio.client --url http://localhost:8990 --input audio --file ./test.wav,其中“./test.wav”为语音文件路径(需替换为实际文件路径),执行后模型会解析该语音文件并输出响应;

  4. 退出CLI:输入“exit”或按“Ctrl+C”即可退出命令行客户端。

5.4 步骤3:停止服务

使用完成后,需按以下顺序停止服务,避免进程残留:

  1. 关闭客户端:若为Web UI,关闭浏览器标签页,然后在Web UI的命令行窗口按“Ctrl+C”;若为CLI,输入“exit”或按“Ctrl+C”;

  2. 关闭服务器:在服务器的命令行窗口按“Ctrl+C”,显示“Server stopped”即停止成功;

  3. 退出虚拟环境:在所有命令行窗口输入deactivate,即可退出虚拟环境。

六、常见问题解答(FAQ)

Q1:安装依赖时提示“Could not find a version that satisfies the requirement torch>=2.0.0”怎么办?

A1:该问题通常是Python版本不匹配或网络问题导致,解决方案如下:

  • 首先确认Python版本为3.8-3.10,若版本不符,需重新安装对应版本的Python;

  • 若版本正确,可手动指定PyTorch安装源,输入pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117(NVIDIA GPU用户,CUDA 11.7)或pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu(无GPU用户),安装完成后再重新执行pip install -r requirements-server.txt

Q2:启动服务器时提示“Port 8990 is already in use”怎么办?

A2:该问题表示8990端口已被其他程序占用,解决方案如下:

  • 更换服务器端口,启动命令改为python -m flmaudio.server --port 8991(8991可替换为8000-9999之间的其他空闲端口);

  • 若需使用8990端口,需先关闭占用该端口的程序:

    • Windows:打开CMD,输入netstat -ano | findstr :8990,找到最后一列的PID(进程ID),然后打开“任务管理器→详细信息”,找到对应PID的进程并结束;

    • Linux/macOS:打开Terminal,输入lsof -i :8990,找到PID,然后输入kill -9 PID(将PID替换为实际进程ID)。

Q3:客户端连接服务器时提示“Connection refused: [Errno 111] Connection refused”怎么办?

A3:该问题表示客户端无法连接到服务器,可能原因及解决方案如下:

  • 服务器未启动:确认服务器命令行窗口显示“Waiting for client connections...”,若未启动,需重新执行服务器启动命令;

  • 服务器地址或端口错误:客户端启动命令中的“--url”参数需与服务器地址一致,例如服务器部署在IP为192.168.1.100的设备上,端口为8990,则客户端命令需为python -m flmaudio.client_gradio --url http://192.168.1.100:8990

  • 防火墙拦截:检查服务器与客户端设备的防火墙设置,确保服务器端口(如8990)已开放,或暂时关闭防火墙测试。

Q4:Web UI上传语音文件后,模型无响应或响应错误怎么办?

A4:可能原因及解决方案如下:

  • 语音文件格式不符:FLM-Audio仅支持wav、mp3格式,且采样率需为16kHz(若文件采样率不符,可使用Audacity等工具转换);

  • 语音文件过大或内容过长:建议单次输入语音时长不超过30秒,若内容过长,可分多次输入;

  • 服务器处理超时:若服务器无GPU,处理大文件可能超时,可尝试减小文件大小,或为服务器配置GPU并安装对应驱动。

Q5:模型生成的响应包含偏见或冒犯性内容怎么办?

A5:FLM-Audio虽经过数据清洗,但仍可能生成不当内容,解决方案如下:

  • 避免输入可能引发不当内容的prompt(如歧视性、攻击性话题);

  • 若已生成不当内容,不要传播该输出,可通过项目GitHub的Issues功能向作者反馈具体情况,帮助优化模型;

  • 开发者可在二次开发中添加内容过滤模块,对模型输出进行审核后再推送。

Q6:CLI模式下无法播放语音响应怎么办?

A6:可能原因及解决方案如下:

  • 未安装语音播放依赖:确认已安装pyttsx3(Web UI依赖已包含,CLI依赖需手动安装,输入pip install pyttsx3);

  • 系统语音设备问题:检查设备扬声器是否正常工作,Windows用户可在“控制面板→声音”中确认默认播放设备,Linux用户需安装alsa-utils(sudo apt-get install alsa-utils),macOS用户需确认声音设置正常;

  • 可选择跳过语音播放,仅查看文本响应,在CLI提示“Play audio? (y/n)”时输入“n”。

Q7:如何更新FLM-Audio到最新版本?

A7:若项目有更新,可通过Git拉取最新代码,步骤如下:

  • 打开命令行,切换到flm-audio目录;

  • 输入git pull origin main,拉取main分支的最新代码;

  • 若依赖有更新,需重新安装依赖:pip install -r requirements-server.txt(服务器)、pip install -r requirements-clientgui.txt(Web UI)、pip install -r requirements-clientcli.txt(CLI)。

七、相关链接

八、总结

FLM-Audio作为cofe-ai开源的音频-语言融合模型,以RoboEgo/FLM-Ego全模态模型为基础,聚焦“原生全双工”核心特性,实现了监听、说话、内部独白的并行处理,支持中英文双语言低延迟对话,同时具备强抗干扰能力,可适配噪音环境与用户中断场景。该项目提供清晰的服务器部署与客户端使用流程,支持Gradio Web UI可视化交互与CLI命令行脚本化操作,核心模块划分明确,便于开发者研究与二次开发,适用于智能客服、语音助手、远程协作、AI研究等多类场景。项目基于Apache License 2.0许可(第三方moshi模块为MIT License),仅供研究使用,商业用途需联系作者,同时需注意其可能存在的不当内容生成风险,用户应避免传播不安全输出。整体而言,FLM-Audio为实时音语交互场景提供了高效、开源的解决方案,兼具技术创新性与实用价值,是全双工对话模型领域的重要开源成果。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!