Gemini 3.5 Live Translate:谷歌推出的实时语音翻译模型,突破传统交替传译限制
一、Gemini 3.5 Live Translate是什么
Gemini 3.5 Live Translate 是谷歌开源的实时语音到语音(Speech-to-Speech)翻译音频模型。该模型旨在打破跨语言沟通中的语言壁垒,通过先进的“连续流式翻译”技术,实现近乎同声传译级别的流畅对话体验。
传统翻译系统通常采用“轮流式”架构,需要等待说话者说完完整的一句话后才开始处理并输出翻译,导致对话中出现明显的停顿,犹如“打对讲机”。Gemini 3.5 Live Translate彻底颠覆了这一模式——它采用边听边译的连续生成方式,在说话者尚未说完时就开始输出翻译,全程仅比说话者慢几秒,几乎消除了对话中的尴尬停顿。
Jeff Dean 官宣:语音翻译是 Google 跑得最久的机器学习项目之一,而这一次,它终于跑进了耳机。
该模型现已全面铺开至三条产品线:
普通用户:通过 Android 和 iOS 版 Google Translate App 使用
企业用户:在 Google Meet 中以私有预览形式提供
开发者:通过 Gemini Live API 和 Google AI Studio 开放公开预览
二、核心功能特色
2.1 连续流式翻译:告别尴尬停顿
传统的轮流式翻译系统通常要等说话者说完后才开始翻译,节奏全断。Gemini 3.5 Live Translate 则会连续生成语音,在“等待更多上下文以提升翻译质量”和“即时翻译以跟上说话者节奏”之间取得动态平衡。整个会话过程中,翻译音频可以保持流畅,避免尴尬停顿,并始终只比说话者慢几秒。
2.2 声学特征高保真还原
这是该模型最具突破性的特性之一。Gemini 3.5 Live Translate 能够自动保留说话者的语调、语速和音高,翻译生成的语音听起来更像是说话者本人的声音,而不是冷冰冰的机器音。你着急,译音也跟着急;你慢条斯理,译音也悠着来——这种声音层面的“人味儿”大幅提升了跨语言沟通的自然度。
2.3 广泛的语言支持
模型可自动检测并支持 70 多种语言,无需手动选择源语言和目标语言。在 Google Meet 中,这一能力进一步扩展为超过 2000 种语言组合的直接互译,突破了此前仅支持与英语互译的 5 种语言限制。
2.4 强大的抗噪能力
Gemini 3.5 Live Translate 针对日常沟通中的复杂声学环境进行了优化,即使在嘈杂的街头、多人声音重叠或夹杂口语俚语的场景中,依然能保持稳定的识别与翻译表现。菜市场、机场、马路边,都能用。
2.5 SynthID 数字水印
所有由 Gemini 3.5 Live Translate 生成的音频均嵌入了 SynthID 不可感知的数字水印,直接融入音频波形信号中,确保 AI 生成内容始终可被检测识别,有助于防范虚假信息传播和身份冒用。谷歌表示目前没有方法可以移除该水印。
2.6 多平台无缝接入
模型已整合进 Google 全生态产品矩阵,涵盖 Google Translate(移动 App)、Google Meet(视频会议)、Gemini Live API 和 Google AI Studio(开发者平台),实现从个人到企业再到开发者的全覆盖。

三、技术细节
3.1 模型架构
Gemini 3.5 Live Translate 基于 Gemini 3 Pro 打造,能够处理最长 128K token 的音频上下文。它是一种端到端的语音到语音模型,摒弃了传统“语音识别→机器翻译→语音合成”的三段式管道架构,实现了更高效的流式翻译处理。
3.2 流式生成机制
模型在接收音频流的同时进行预测与连续生成,摒弃了等待发言结束才翻译的单回合传统架构。评测指标聚焦于三个维度:翻译质量、延迟、语音自然度。换句话说,谷歌给它的 KPI 不是单纯的“翻得对”,而是“聊得顺”。
3.3 延迟表现
翻译语音全程仅比说话者慢数秒,足够跟上正常对话节奏,真正实现了边听边译的实时体验。在受控环境下,延迟表现更为优异。
3.4 开发者 API 配置
开发者可通过 Gemini Live API 配置该功能,使用 targetLanguageCode 和 echoTargetLanguage 参数进行设置。输入音频采样率为 16kHz,输出采样率为 24kHz,专为实时语音通信场景优化。
3.5 生态集成
Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等主流实时通信(RTC)平台已接入 Gemini Live API,将复杂的实时媒体流传输基础设施封装好,开发者无须关注采集、传输、回声消除等底层细节,可以专注于用户体验本身。
四、应用场景
Gemini 3.5 Live Translate 的多平台部署使其适用于广泛的真实使用场景,从个人出行到企业会议均能发挥作用。
4.1 个人出行与旅游
在异国旅行时,只需打开 Google Translate App 并连接耳机(或使用 Android 专属的“听筒模式”),即可实时将对方的话语翻译成用户母语。场景覆盖酒店入住、问路、点餐、购物等日常交流。
4.2 跨国网约车/外卖服务
东南亚出行平台 Grab 正在测试该模型,以实现司机与乘客在接送过程中的多语言沟通。Grab 平台用户每月通过平台拨打超过 1000 万次语音通话,司机说本地话,乘客听到的是自己的母语,解决了“你在哪”“我马上到”等高频交流场景的语言障碍。
Grab 首席产品官表示,公司看重这一模型自动识别多种语言、以低延迟准确翻译语音的能力。
4.3 跨国企业会议
Google Meet 将引入 Gemini 3.5 Live Translate,支持语言从此前仅有的 5 种扩展至 70 余种,单场会议可支持超过 2000 种语言组合的互译,不再局限于英语作为中间语言。界面新增一键启动语音翻译的按钮。
4.4 多语言客服与呼叫中心
开发者可将该模型用于多语言通话场景,客户服务人员与全球各地的客户实现实时无障碍沟通。娱乐巨头 CJ ENM 也在测试提供针对全球观众的实时同传与配音服务。
4.5 课堂教学与讲座
在国际学术交流、在线课程等教育场景中,讲师可使用该模型为多语言学生提供实时口译,字幕与语音同步输出,极大提升教学覆盖范围和跨语言学习体验。
4.6 直播与广播
在全球化直播场景中,Gemini 3.5 Live Translate 可实现实时视频配音和多语言同步翻译,帮助内容创作者触达更广泛的全球受众。
五、使用方法
5.1 Google Translate App(普通用户)
使用流程:
准备工作
确保 Google Translate App 已更新至最新版本(Android / iOS)
连接任意一副耳机(蓝牙或有线均可)
开启功能
打开 Google Translate App
点击左下角的 “Live translate”(实时翻译)按钮
上方选择双方沟通的语言对(如中文→西班牙语)
开始对话
模型自动检测谁在说话,无需手动切换麦克风
说出的内容会实时通过耳机播放翻译音频
全程仅落后说话者数秒,无需等待停顿
5.2 Android 专属:听筒模式(Listening Mode)
Android 用户将获得一个独家惊喜——全新的 “听筒模式” 。在没有耳机或不方便使用耳机的场景下,用户只需像接听普通电话一样将手机举到耳边,即可通过手机听筒直接收听实时翻译内容,旁人无法听到译音,保障隐私的同时更加便捷。
使用场景示例:在博物馆听外语导览,或与外国友人密谈时,掏出手机往耳边一贴就能救急,临时没带耳机也无妨。
5.3 Google Meet(企业用户)
企业客户可通过 Google Workspace 申请参与私有预览。在网页端会议控制栏中,新增的语音翻译按钮可一键启动功能,支持 70+ 语言的会议互译和 2000+ 种语言组合。本月起面向部分企业用户开放,更大范围推广预计于今年晚些时候进行。
5.4 开发者集成
开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版,构建适用于多语言通话、会议、课程和广播等场景的实时口译功能。感兴趣者可访问 Gemini Cookbook 查看演示示例及参考代码。
六、竞品对比
6.1 DeepL Voice
DeepL Voice 是 DeepL 于 2026 年推出的实时语音翻译产品,包括面向视频会议的 DeepL Voice for Meetings 和面向面对面交流的 DeepL Voice for Conversations。
优势:
翻译质量精度高:在 Slator 的第三方独立评测中,DeepL Voice 获得了 96.4/100 的翻译质量评分,显著领先于竞品平台的 87-89 分。
会议术语库:可自定义特定行业术语、公司名称、产品名称和缩写,确保专业场景下的翻译准确度。
多平台深度集成:已接入 Zoom、Microsoft Teams 和 Google Meet 三大主流视频会议平台。
局限:
主要聚焦于视频会议和面对面对话场景
面向个人用户的免费版限制较多
语音合成自然度相对低于 Gemini 3.5 Live Translate
6.2 微软 GPT Realtime Translate
微软于 2026 年 5 月推出 GPT Realtime Translate,这是一款专为连续实时音频翻译设计的大模型,支持 76 种语言和 143 个地区,具备自动语言识别和低延迟等特点。
优势:
低延迟表现:采用连续音频流处理架构,延迟表现可媲美专业人工口译。
个人语音功能:能保留说话者的风格与语调,使翻译后的语音更自然。
广泛语言覆盖:支持 76 种输入语言和 143 个地区。
局限:
发布时间晚于 Gemini 3.5 Live Translate,生态集成相对滞后
主要面向企业 API 场景,个人端产品体验尚不完善
缺乏类似 Google 翻译 App 的轻量级个人移动端体验
6.3 功能对比表
| 对比维度 | Gemini 3.5 Live Translate | DeepL Voice | 微软 GPT Realtime Translate |
|---|---|---|---|
| 发布及发布时间 | 2026年6月,谷歌 | 2026年4月,DeepL | 2026年5月,微软 |
| 支持语言数 | 70+ 种 | 约 30+ 种(主要为主要语言) | 76 种 |
| 语言组合 | 2000+ 种(不限于英语枢纽) | 有限组合,依赖主要语言对 | 以英语为主枢的语言对 |
| 核心技术 | 连续流式生成,语音到语音端到端 | 高精度转录+翻译管道 | 连续流式生成 |
| 语音合成 | 保留声调、语速、音高,极近真人 | 标准TTS,风格较中立 | 保留个人语音风格 |
| 延迟表现 | 仅数秒 | 约 5-10 秒 | 低延迟,可媲美人工口译 |
| 核心平台 | Google Translate、Google Meet、API | Zoom、Teams、Google Meet | Azure API、Teams |
| 个人移动端 | ✅ Android/iOS App | ✅ DeepL Voice for Conversations(App) | ❌ 主要为API/企业 |
| 听筒模式 | ✅ Android专属 | ❌ | ❌ |
| 水印标记 | ✅ SynthID | ❌ | 未明确 |
| 定价模式 | 个人版免费,企业版待定 | 企业订阅制 | 企业订阅/Azure 用量计费 |
七、常见问题解答
【Q】Gemini 3.5 Live Translate 支持哪些语言?
A:该模型支持超过 70 种语言的自动检测与实时互译。在 Google Meet 中可实现 2000 余种语言组合的直接翻译,突破了此前仅支持与英语互译的 5 种语言限制。支持的语言包括中文、英语、西班牙语、日语、法语、德语等全球主要语言,即使中途切换语言也能自动识别。
【Q】必须佩戴耳机才能使用吗?
A:在 Google Translate App 中使用实时翻译功能时,通常需要连接任意一副耳机(蓝牙或有线均可)才能激活功能。但 Android 用户专属的“听筒模式”是一项例外——在没有耳机的情况下,用户可直接将手机像接听普通电话一样贴到耳边,通过手机听筒收听翻译音频。
【Q】翻译延迟有多大?
A:Gemini 3.5 Live Translate 采用连续流式翻译技术,整个翻译过程始终仅比说话者慢数秒,足以跟上正常对话节奏,几乎感受不到明显停顿。与传统逐句翻译系统长达 10-20 秒的延迟相比,这是显著的进步。
【Q】翻译质量如何?
A:该模型基于 Gemini 3 Pro 打造,能够处理最长 128K token 的音频上下文。合作伙伴 Grab 在测试中反馈翻译质量出色、准确度高、延迟表现优异。模型特别擅长在“等待更多上下文以提升翻译质量”和“即时翻译以跟上说话者节奏”之间寻找最佳平衡点。
【Q】噪音大的地方能用吗?
A:可以。模型内置了强大的抗噪能力,专为嘈杂、复杂的真实环境设计,如菜市场、机场、马路边、多人声音重叠或夹杂口语俚语的场景均可使用。
【Q】翻译音频会被保留吗?
A:目前在 Google Translate App 中,翻译音频不会被自动保存记录。所有生成的音频都会嵌入 SynthID 数字水印以标记 AI 生成属性,但不提供通话录音功能。需要记录翻译内容的话,建议用户自行使用录屏或其他录音工具。
【Q】AI 生成的翻译是否会被滥用?
A:谷歌在安全性方面做了多重防护。所有由 Gemini 3.5 Live Translate 生成的音频输出均已嵌入 SynthID 水印,这种不可感知的水印直接融入音频波形信号中,确保 AI 生成内容始终可被检测识别,有助于防止虚假信息传播和身份冒用。谷歌表示目前没有方法可以移除该水印。
【Q】开发者如何接入这个功能?
A:开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版。API 配置时需指定 targetLanguageCode 和 echoTargetLanguage 参数,输入音频采样率 16kHz,输出采样率 24kHz。目前已接入 Agora、Fishjam、LiveKit 等主流 RTC 平台。感兴趣者可访问 Gemini Cookbook 查看演示示例及更多参考代码。
【Q】Google Meet 上的实时翻译能支持哪些语言组合?
A:Google Meet 的更新将此前仅支持 5 种语言(且局限于与英语互译)的限制扩展到支持 70 余种语言,单次会议可实现超过 2000 种语言组合的直接互译。例如,普通话可以直接翻译成西班牙语,无需经过英语中转。
【Q】企业用户如何获取 Google Meet 的预览版?
A:本月起,该功能面向特定的 Google Workspace 企业客户以私有预览形式开放。如需参与,建议联系 Google Workspace 客户经理或通过 Google 官方渠道申请。更大范围的推广预计将于今年晚些时候进行。
八、总结
Gemini 3.5 Live Translate 是谷歌在实时语音翻译领域的一次重大技术突破,它通过连续流式翻译机制彻底告别了传统轮流式翻译的尴尬停顿,以仅数秒的延迟实现了近乎同声传译级别的流畅对话体验。该模型不仅能自动识别并互译超过70种语言,还通过声学特征高保真还原让翻译语音保留说话者原有的语调、语速和音高,大幅提升了跨语言沟通的自然度。产品层面,该功能已无缝整合进Google Translate移动App(含Android专属听筒模式)、Google Meet企业会议以及Gemini Live API与AI Studio开发者平台,覆盖从个人出行到企业协作的全场景需求。同时,谷歌通过SynthID数字水印确保了AI生成内容的安全可追溯性,并在合作伙伴Grab的真实商业场景中验证了其在千万级月活用户下的稳定表现。
版权及免责申明:本文由@AI工具集原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/gemini-3-5-live-translate.html

