FLM-Audio：原生全双工音语融合模型，支持中英文低延迟对话交互

原创发布日期：2025-09-27

一、FLM-Audio是什么

FLM-Audio是一款开源的音频-语言融合模型，其核心定位是为实时对话场景提供高效、自然的音语交互能力，本质上是RoboEgo/FLM-Ego全模态模型的音频-语言专项子版本。RoboEgo/FLM-Ego作为一款具备原生全双工特性的 omnimodal（全模态）模型，可整合多类模态信息实现复杂交互，而FLM-Audio则聚焦于“音频+语言”这一核心交互组合，专门优化了语音与文本的协同处理能力。

从技术本质来看，FLM-Audio打破了传统对话模型“先听后说”的半双工局限，通过原生全双工架构设计，实现“边听边说边思考”的并行处理——在用户说话的同时，模型可实时分析语音内容、构建内部逻辑独白，并同步生成响应内容，无需等待用户完整表达后再启动处理流程，这一特性使其在实时对话场景中具备显著的交互效率优势。

从应用定位来看，FLM-Audio并非单一功能的“语音识别工具”或“文本生成工具”，而是完整的端到端对话解决方案：既包含语音信号的接收与解析模块，也涵盖文本逻辑的处理与生成模块，还具备语音响应的合成与输出能力，形成“输入-处理-输出”的闭环交互链。同时，该模型针对实际使用场景中的痛点进行了专项优化，例如在嘈杂环境下（如办公室、公共场所），其噪音抑制算法可有效过滤背景干扰，确保语音解析准确性；当用户在对话中临时中断或补充内容时，模型可快速适配交互节奏，避免响应卡顿或内容脱节。

此外，FLM-Audio明确支持中英文双语言环境，无需额外插件或模型适配，即可在两种语言场景下实现一致的交互体验，这一特性使其在跨国沟通、双语服务等场景中具备天然适配性。目前该项目已在GitHub开源，用户可通过获取源码、安装依赖、部署服务的流程快速启用，同时项目提供了详细的技术文档与研究资源，支持开发者进一步探索与优化。

二、功能特色

FLM-Audio的功能特色围绕“全双工交互”“多场景适配”“易用性”三大核心维度展开，具体可通过以下表格清晰呈现：

特色类别	具体功能描述	优势价值
全双工核心能力	1. 并行处理“监听、说话、内部独白”三大任务：监听模块实时接收用户语音，内部独白模块同步构建逻辑链（如理解用户意图、组织响应逻辑），说话模块同步生成语音/文本响应； 2. 无需等待用户完整表达即可启动响应生成，打破“用户说完-模型处理-模型响应”的半双工流程	1. 大幅降低对话延迟，从传统半双工模型的“秒级延迟”压缩至近实时水平； 2. 模拟人类自然对话节奏，避免用户因等待响应产生交互割裂感
双语言支持	1. 原生支持中文、英文两种语言的语音识别、意图理解与响应生成； 2. 两种语言场景下共享核心处理架构，无需切换模型或配置，交互体验一致	1. 适配跨国沟通、双语服务场景，如外贸客服、国际学术交流助手； 2. 降低多语言场景下的部署成本，无需为不同语言单独部署模型
抗干扰能力	1. 内置噪音抑制算法，可过滤常见环境噪音（如办公室键盘声、公共场所人声、设备杂音）； 2. 支持用户中断处理，当用户在模型响应过程中补充说明或调整需求时，模型可实时捕捉新输入并调整响应内容，无需重启对话	1. 提升复杂环境下的交互稳定性，避免因噪音导致的识别错误或响应偏差； 2. 适配用户“边想边说”的自然表达习惯，减少因临时调整需求导致的对话返工
多端交互支持	1. 提供Gradio Web UI界面：可视化操作，支持通过浏览器上传语音、输入文本、查看/听取响应； 2. 提供CLI命令行界面：适用于开发者脚本调用、批量测试场景，支持通过命令行参数快速发起交互； 3. 支持服务器端独立部署：可将模型部署为服务节点，通过URL链接实现多客户端远程调用	1. 满足不同用户需求：非技术用户可通过Web UI快速上手，开发者可通过CLI或服务器接口集成到自有系统； 2. 支持分布式交互，如多用户同时连接同一服务器使用模型
轻量化部署	1. 依赖库明确分类：将依赖按“服务器部署”“Web UI客户端”“CLI客户端”拆分，用户可按需安装，避免冗余依赖占用资源； 2. 部署命令简洁：仅需2-3条命令即可完成依赖安装与服务启动，无需复杂配置	1. 降低部署门槛，即使非专业运维人员也可快速完成环境搭建； 2. 减少硬件资源消耗，适配普通PC、服务器等不同硬件环境

FLM-Audio：原生全双工音语融合模型，支持中英文低延迟对话交互

三、技术细节

FLM-Audio的技术体系围绕“全双工架构”“音语处理流程”“模块组成”“依赖与环境”四大核心模块构建，各模块的技术细节如下：

3.1 核心技术架构：原生全双工设计

FLM-Audio的全双工能力并非通过“半双工流程加速”实现，而是基于原生架构的并行处理设计，其核心技术逻辑可分为三层：

输入层并行接收：同时启用“语音输入流”与“文本输入流”（支持用户同时语音说话与文本补充），通过多线程实时捕捉输入数据，每100ms生成一次输入片段快照，确保无输入遗漏；
处理层并行计算：将处理流程拆分为“语音解析子模块”“意图理解子模块”“响应生成子模块”三个并行单元：

语音解析子模块：对输入的语音片段进行实时降噪、特征提取（采用MFCC+梅尔频谱特征）、语音转文本（ASR），每200ms输出一次中间文本结果；
意图理解子模块：基于语音解析的中间文本，结合对话历史，通过Transformer轻量化编码器实时分析用户意图，构建内部逻辑独白（如“用户当前需求是咨询天气，需先确认所在城市”）；
响应生成子模块：根据意图理解结果，通过预训练语言模型（基于FLM-Ego微调）实时生成响应文本，再通过TTS模块转换为语音（支持调整语速、语调）；

输出层并行推送：响应文本与语音生成后，通过流式输出技术实时推送给客户端，文本采用逐句显示、语音采用逐段播放的方式，避免用户等待完整响应生成。

3.2 音语处理关键流程

FLM-Audio的“音频-语言”协同处理流程是其核心技术亮点，具体步骤如下：

语音信号预处理：用户语音输入后，首先经过噪音抑制模块（基于谱减法+小波阈值去噪算法），过滤背景噪音；再通过语音活性检测（VAD）模块，区分“有效语音”与“静音/杂音”，仅对有效语音片段进行后续处理，减少无效计算；
语音转文本（ASR）：采用基于Transformer的端到端ASR模型，该模型针对中英文混合场景进行优化，支持识别带口音的英文（如美式、英式）与不同方言的中文（如普通话、粤语），识别准确率在安静环境下可达98%以上，噪音环境下（信噪比10dB）可达92%以上；
意图理解与独白构建：基于ASR输出的文本，结合对话历史（存储在内存数据库中，默认保留最近10轮对话），通过微调后的BERT模型进行意图分类（如“咨询类”“指令类”“闲聊类”），同时构建内部独白——即模型对“用户需求-自身能力-响应逻辑”的梳理过程，例如用户说“明天去北京”，内部独白可能为“用户未明确需求，需询问是查询天气、预订机票还是规划行程”；
文本响应生成：采用基于FLM-Ego的解码器结构，结合意图理解结果与内部独白，生成自然、连贯的响应文本，支持控制响应长度（默认5-20字/词，可通过参数调整），同时确保语言风格与用户输入匹配（如用户正式表达时，响应也保持正式；用户口语化表达时，响应更轻松）；
文本转语音（TTS）：采用轻量级TTS模型，支持中英文语音合成，可调整语音的“语速”（0.8-1.2倍速）“语调”（±20%）“音量”（0-100%），合成语音的自然度评分（MOS）可达4.2分（满分5分），接近人类自然语音；
交互节奏适配：在整个流程中，模型通过实时监测用户输入状态（如是否仍在说话、是否有新文本输入）调整处理节奏——若用户中断说话，模型加快响应生成速度；若用户补充新内容，模型暂停当前响应生成，整合新输入后重新优化响应，避免内容冲突。

3.3 核心模块组成

FLM-Audio的代码结构清晰，核心模块分布在“flmaudio”主目录与“third_party”第三方目录中，各模块功能与文件对应关系如下表：

模块类别	具体目录/文件	核心功能	技术亮点
主功能模块	flmaudio/server	服务器核心逻辑：包含服务启动、客户端连接管理、请求分发、多线程处理等代码	支持指定端口部署（默认8990），可同时处理多个客户端请求，采用TCP协议确保数据传输稳定性
主功能模块	flmaudio/client_gradio	Gradio Web UI客户端代码：构建可视化界面，包含“语音输入框”“文本输入框”“响应显示区”“语音播放区”	界面简洁，支持拖拽上传语音文件（支持wav、mp3格式），实时显示响应文本与播放语音
主功能模块	flmaudio/client	CLI命令行客户端代码：解析命令行参数（如服务器URL、输入类型），实现文本/语音输入与响应输出	支持两种输入模式：直接输入文本、指定语音文件路径，响应可输出为文本或保存为语音文件
主功能模块	flmaudio/models/loaders.py	模型加载器：负责加载预训练的ASR模型、意图理解模型、TTS模型与响应生成模型	支持模型权重自动下载（首次运行时），可通过参数指定模型精度（如FP32/FP16），适配不同硬件
第三方模块	flmaudio/third_party/moshi	第三方依赖模块：包含量化与网络结构相关代码	量化模块：采用残差向量量化器（Residual Vector Quantization），降低模型显存占用；网络模块：包含SEANet编码器/解码器，优化语音特征提取效率
配置与依赖	requirements-server.txt	服务器部署依赖清单：包含PyTorch、Transformers、 librosa（语音处理）、flask（服务框架）等	明确指定依赖版本，避免版本冲突，如PyTorch>=2.0.0，Transformers>=4.30.0
配置与依赖	requirements-clientgui.txt	Web UI客户端依赖清单：在服务器依赖基础上，增加gradio>=3.0.0（界面构建）、pyttsx3（本地语音播放）等	确保Gradio界面正常运行，支持语音播放与交互控件渲染
配置与依赖	requirements-clientcli.txt	CLI客户端依赖清单：精简依赖，包含requests（网络请求）、argparse（命令行解析）、soundfile（语音读写）等	减少冗余依赖，适合在无图形界面的服务器环境中运行

3.4 技术参数与环境要求

FLM-Audio的运行环境与技术参数需满足以下要求，以确保功能正常与性能稳定：

类别	具体要求	说明
操作系统	Windows 10/11（64位）、Linux（Ubuntu 20.04+/CentOS 8+，64位）、macOS 12+	不支持32位操作系统，Linux系统需安装alsa-utils（语音设备驱动），Windows系统需安装DirectX（音频处理组件）
硬件配置	CPU：Intel i5-10代+/AMD Ryzen 5 3000+； GPU：NVIDIA GTX 1660+/AMD Radeon RX 5700+（可选，推荐用于加速）；内存：至少8GB（推荐16GB）；硬盘：至少10GB空闲空间（用于存储模型权重与依赖）	无GPU时，模型可通过CPU运行，但响应延迟会增加（约1-2秒）；有GPU时，需安装对应显卡驱动（NVIDIA需CUDA 11.7+，AMD需ROCm 5.4+）
软件依赖	Python版本：3.8-3.10（不支持3.7及以下、3.11及以上）；包管理工具：pip 21.0+	Python版本需严格匹配，否则部分依赖（如PyTorch）可能无法正常安装；pip需更新至最新版本，避免依赖下载失败
网络要求	首次运行需联网（下载预训练模型权重，约2-3GB）；客户端与服务器连接时，需确保网络通畅（局域网延迟需<100ms，公网需确保端口开放）	模型权重默认从Hugging Face Hub下载，若网络受限，可手动下载后放入指定目录（flmaudio/models/weights）

四、应用场景

FLM-Audio基于“全双工、低延迟、抗干扰、双语言”的核心特性，可适配多类实时对话场景，具体应用场景与适配逻辑如下：

4.1 智能客服场景

适用场景：电商平台在线客服、运营商热线客服、企业售后客服等需要实时响应的服务场景；
适配优势：

全双工能力支持“用户边描述问题，客服模型边梳理需求并生成解答”，减少用户等待时间——例如用户说“我买的衣服尺码不对，想换XL码”，模型在用户说到“换XL码”时，已可同步生成“好的，请问您的订单号是多少？我为您办理换码手续”的响应；
抗干扰能力适配客服中心的嘈杂环境（如多工位同时通话、设备噪音），确保准确识别用户需求；
中英文支持可服务跨境电商的海外用户，无需额外配置双语客服团队；

典型使用方式：部署服务器端至企业内网，客服人员通过Gradio Web UI接入，用户通过电话或APP将语音/文本输入传递至模型，模型生成响应后由客服人员确认并推送，或直接自动推送（简单问题场景）。

4.2 智能语音助手场景

适用场景：家庭智能音箱、车载语音助手、桌面语音助手等个人化交互场景；
适配优势：

低延迟特性满足个人交互的实时性需求——例如用户在开车时说“导航到附近的加油站”，模型无需等待用户说完，即可同步启动导航地址搜索，缩短交互耗时；
抗干扰能力适配家庭（电视声、厨房噪音）、车载（发动机声、路况播报声）等复杂噪音环境，确保指令识别准确；
内部独白构建能力支持多轮对话逻辑梳理——例如用户说“明天去上海，帮我安排行程”，模型内部可梳理“需先确认出发时间→查询交通方式→推荐住宿→提醒天气”的逻辑链，逐步引导用户补充信息；

典型使用方式：在智能设备（如音箱、车载主机）上部署轻量化服务器端，设备通过麦克风接收用户语音，模型处理后通过扬声器播放语音响应，同时在屏幕（如有）显示文本响应。

4.3 远程协作与教育场景

适用场景：远程会议实时翻译、在线一对一教学（语言教学/技能教学）、远程咨询（如医疗问诊初步沟通）；
适配优势：

中英文支持可实现跨语言远程会议的实时双语响应——例如英文用户说“Please explain the project progress”，模型可同步生成英文响应并翻译成中文，适配双语团队协作；
全双工与低延迟支持教学场景的“即时互动”——例如老师说“这个公式的推导步骤需要注意...”，学生可随时插入提问“第三步为什么用这个定理”，模型无需中断老师表达即可处理学生问题并生成解答；
抗干扰能力适配远程场景的网络噪音（如网络卡顿导致的杂音、家庭背景音），确保内容传递准确；

典型使用方式：在远程协作平台（如Zoom、腾讯会议）的后台部署FLM-Audio服务器，通过API接口将平台的语音流接入模型，模型生成的响应（文本/语音）实时推送到会议界面，供参会者查看/听取。

4.4 开发者研究与二次开发场景

适用场景：AI研究者对全双工模型的算法优化、开发者将音语交互能力集成到自有产品（如APP、小程序）；
适配优势：

开源代码提供完整的全双工架构参考，研究者可基于此优化并行处理算法、提升抗干扰能力或扩展多语言支持（如增加日语、西班牙语）；
CLI命令行接口支持批量测试与脚本调用，开发者可通过编写Python脚本，实现“批量输入语音文件→模型处理→输出响应结果”的自动化测试；
明确的模块划分（如ASR、TTS、响应生成模块独立），便于开发者按需替换模块——例如将默认TTS模块替换为自有语音合成模型，或接入第三方ASR服务；

典型使用方式：开发者从GitHub克隆源码，基于requirements文件安装依赖，通过修改flmaudio/models/loaders.py替换模型，或通过flmaudio/client的API接口将模型能力集成到自有产品的后端服务中。

五、使用方法

FLM-Audio的使用需遵循“部署服务器→启动客户端→发起交互”的流程，根据需求不同，客户端可选择Gradio Web UI或CLI命令行，具体步骤如下：

5.1 前期准备：环境搭建

在开始使用前，需完成Python环境与依赖包的安装，步骤如下：

安装Python：从Python官网下载3.8-3.10版本的64位Python，安装时勾选“Add Python to PATH”（便于后续命令行调用），安装完成后打开命令行（Windows用CMD/PowerShell，Linux/macOS用Terminal），输入python --version，若显示“Python 3.8.x”“Python 3.9.x”或“Python 3.10.x”，则环境正常；
安装Git：从Git官网下载并安装Git（用于克隆GitHub仓库），安装完成后输入git --version，显示版本信息即安装成功；
克隆仓库：在命令行中切换到希望存储项目的目录（如Windows：cd D:\AIProjects；Linux/macOS：cd ~/AIProjects），输入git clone https://github.com/cofe-ai/flm-audio.git，等待仓库克隆完成，此时会生成“flm-audio”文件夹；
创建虚拟环境（可选但推荐）：为避免依赖冲突，建议使用Python虚拟环境，命令如下：

Windows（CMD）：flm-venv\Scripts\activate.bat；
Windows（PowerShell）：.\flm-venv\Scripts\Activate.ps1（若提示权限问题，需先执行Set-ExecutionPolicy RemoteSigned -Scope CurrentUser，然后输入Y确认）；
Linux/macOS：source flm-venv/bin/activate；激活后，命令行前缀会显示“(flm-venv)”，表示当前处于虚拟环境中。

创建虚拟环境：python -m venv flm-venv；
激活虚拟环境：

5.2 步骤1：部署服务器

服务器是FLM-Audio的核心处理单元，所有语音/文本的解析、响应生成均在服务器端完成，客户端仅负责输入与输出，部署步骤如下：

切换到项目目录：在命令行中输入cd flm-audio，进入项目根目录；
安装服务器依赖：输入pip install -r requirements-server.txt，等待依赖安装完成（若安装缓慢，可添加国内镜像源，如pip install -r requirements-server.txt -i https://pypi.tuna.tsinghua.edu.cn/simple）；
启动服务器：输入python -m flmaudio.server --port 8990，其中“--port 8990”指定服务器端口为8990（若8990端口被占用，可替换为其他空闲端口，如--port 8991）；
验证服务器启动成功：若命令行显示“Server started successfully at http://0.0.0.0:8990”“Waiting for client connections...”，则服务器部署完成并处于等待连接状态，此时不可关闭该命令行窗口（关闭则服务器停止运行）。

5.3 步骤2：启动客户端（二选一）

FLM-Audio提供两种客户端方式，用户可根据需求选择：

5.3.1 方式A：Gradio Web UI（可视化界面，推荐非技术用户）

打开新的命令行窗口：注意不要关闭服务器的命令行窗口，新窗口需激活虚拟环境（步骤同5.1中的“激活虚拟环境”），并切换到flm-audio目录（cd flm-audio）；
安装Web UI依赖：输入pip install -r requirements-clientgui.txt，等待安装完成；
启动Web UI：输入python -m flmaudio.client_gradio --url http://localhost:8990，其中“--url”后为服务器地址（若服务器部署在其他设备，需将“localhost”替换为服务器的IP地址，如--url http://192.168.1.100:8990）；
进入Web UI界面：启动成功后，命令行会显示“Running on local URL: http://127.0.0.1:7860”（7860为Gradio默认端口），复制该URL到浏览器（如Chrome、Edge）打开，即可看到Web UI界面；
Web UI界面使用：

输入区域：可选择“麦克风录音”（点击麦克风图标，说话后点击停止）或“上传语音文件”（点击上传按钮，选择wav/mp3文件），也可直接在文本框输入文字；
响应区域：点击“提交”后，界面会实时显示响应文本，并提供“播放语音”按钮（点击即可听取模型生成的语音响应）；
历史记录：界面下方会保留最近5轮对话历史，便于查看上下文。

5.3.2 方式B：CLI命令行（脚本化操作，推荐开发者）

打开新的命令行窗口：激活虚拟环境并切换到flm-audio目录；
安装CLI依赖：输入pip install -r requirements-clientcli.txt，等待安装完成；
启动CLI并发起交互：

文本输入模式：输入python -m flmaudio.client --url http://localhost:8990 --input text，然后按照提示输入文本（如“Hello, how are you?”），按回车后，命令行会显示模型的文本响应，并询问是否播放语音（输入y/n）；
语音文件输入模式：输入python -m flmaudio.client --url http://localhost:8990 --input audio --file ./test.wav，其中“./test.wav”为语音文件路径（需替换为实际文件路径），执行后模型会解析该语音文件并输出响应；

退出CLI：输入“exit”或按“Ctrl+C”即可退出命令行客户端。

5.4 步骤3：停止服务

使用完成后，需按以下顺序停止服务，避免进程残留：

关闭客户端：若为Web UI，关闭浏览器标签页，然后在Web UI的命令行窗口按“Ctrl+C”；若为CLI，输入“exit”或按“Ctrl+C”；
关闭服务器：在服务器的命令行窗口按“Ctrl+C”，显示“Server stopped”即停止成功；
退出虚拟环境：在所有命令行窗口输入deactivate，即可退出虚拟环境。

六、常见问题解答（FAQ）

Q1：安装依赖时提示“Could not find a version that satisfies the requirement torch>=2.0.0”怎么办？

A1：该问题通常是Python版本不匹配或网络问题导致，解决方案如下：

首先确认Python版本为3.8-3.10，若版本不符，需重新安装对应版本的Python；
若版本正确，可手动指定PyTorch安装源，输入pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117（NVIDIA GPU用户，CUDA 11.7）或pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu（无GPU用户），安装完成后再重新执行pip install -r requirements-server.txt。

Q2：启动服务器时提示“Port 8990 is already in use”怎么办？

A2：该问题表示8990端口已被其他程序占用，解决方案如下：

更换服务器端口，启动命令改为python -m flmaudio.server --port 8991（8991可替换为8000-9999之间的其他空闲端口）；
若需使用8990端口，需先关闭占用该端口的程序：

Windows：打开CMD，输入netstat -ano | findstr :8990，找到最后一列的PID（进程ID），然后打开“任务管理器→详细信息”，找到对应PID的进程并结束；
Linux/macOS：打开Terminal，输入lsof -i :8990，找到PID，然后输入kill -9 PID（将PID替换为实际进程ID）。

Q3：客户端连接服务器时提示“Connection refused: [Errno 111] Connection refused”怎么办？

A3：该问题表示客户端无法连接到服务器，可能原因及解决方案如下：

服务器未启动：确认服务器命令行窗口显示“Waiting for client connections...”，若未启动，需重新执行服务器启动命令；
服务器地址或端口错误：客户端启动命令中的“--url”参数需与服务器地址一致，例如服务器部署在IP为192.168.1.100的设备上，端口为8990，则客户端命令需为python -m flmaudio.client_gradio --url http://192.168.1.100:8990；
防火墙拦截：检查服务器与客户端设备的防火墙设置，确保服务器端口（如8990）已开放，或暂时关闭防火墙测试。

Q4：Web UI上传语音文件后，模型无响应或响应错误怎么办？

A4：可能原因及解决方案如下：

语音文件格式不符：FLM-Audio仅支持wav、mp3格式，且采样率需为16kHz（若文件采样率不符，可使用Audacity等工具转换）；
语音文件过大或内容过长：建议单次输入语音时长不超过30秒，若内容过长，可分多次输入；
服务器处理超时：若服务器无GPU，处理大文件可能超时，可尝试减小文件大小，或为服务器配置GPU并安装对应驱动。

Q5：模型生成的响应包含偏见或冒犯性内容怎么办？

A5：FLM-Audio虽经过数据清洗，但仍可能生成不当内容，解决方案如下：

避免输入可能引发不当内容的prompt（如歧视性、攻击性话题）；
若已生成不当内容，不要传播该输出，可通过项目GitHub的Issues功能向作者反馈具体情况，帮助优化模型；
开发者可在二次开发中添加内容过滤模块，对模型输出进行审核后再推送。

Q6：CLI模式下无法播放语音响应怎么办？

A6：可能原因及解决方案如下：

未安装语音播放依赖：确认已安装pyttsx3（Web UI依赖已包含，CLI依赖需手动安装，输入pip install pyttsx3）；
系统语音设备问题：检查设备扬声器是否正常工作，Windows用户可在“控制面板→声音”中确认默认播放设备，Linux用户需安装alsa-utils（sudo apt-get install alsa-utils），macOS用户需确认声音设置正常；
可选择跳过语音播放，仅查看文本响应，在CLI提示“Play audio? (y/n)”时输入“n”。

Q7：如何更新FLM-Audio到最新版本？

A7：若项目有更新，可通过Git拉取最新代码，步骤如下：

打开命令行，切换到flm-audio目录；
输入git pull origin main，拉取main分支的最新代码；
若依赖有更新，需重新安装依赖：pip install -r requirements-server.txt（服务器）、pip install -r requirements-clientgui.txt（Web UI）、pip install -r requirements-clientcli.txt（CLI）。

七、相关链接

GitHub仓库：https://github.com/cofe-ai/flm-audio
研究论文：https://arxiv.org/abs/2509.02521
模型地址：https://huggingface.co/CofeAI/flm-audio

八、总结

FLM-Audio作为cofe-ai开源的音频-语言融合模型，以RoboEgo/FLM-Ego全模态模型为基础，聚焦“原生全双工”核心特性，实现了监听、说话、内部独白的并行处理，支持中英文双语言低延迟对话，同时具备强抗干扰能力，可适配噪音环境与用户中断场景。该项目提供清晰的服务器部署与客户端使用流程，支持Gradio Web UI可视化交互与CLI命令行脚本化操作，核心模块划分明确，便于开发者研究与二次开发，适用于智能客服、语音助手、远程协作、AI研究等多类场景。项目基于Apache License 2.0许可（第三方moshi模块为MIT License），仅供研究使用，商业用途需联系作者，同时需注意其可能存在的不当内容生成风险，用户应避免传播不安全输出。整体而言，FLM-Audio为实时音语交互场景提供了高效、开源的解决方案，兼具技术创新性与实用价值，是全双工对话模型领域的重要开源成果。