Gemini 3.5 Live Translate:谷歌推出的实时语音翻译模型,突破传统交替传译限制

原创 发布日期:
64

一、Gemini 3.5 Live Translate是什么

Gemini 3.5 Live Translate 是谷歌开源的实时语音到语音(Speech-to-Speech)翻译音频模型。该模型旨在打破跨语言沟通中的语言壁垒,通过先进的“连续流式翻译”技术,实现近乎同声传译级别的流畅对话体验。

传统翻译系统通常采用“轮流式”架构,需要等待说话者说完完整的一句话后才开始处理并输出翻译,导致对话中出现明显的停顿,犹如“打对讲机”。Gemini 3.5 Live Translate彻底颠覆了这一模式——它采用边听边译的连续生成方式,在说话者尚未说完时就开始输出翻译,全程仅比说话者慢几秒,几乎消除了对话中的尴尬停顿。

Jeff Dean 官宣:语音翻译是 Google 跑得最久的机器学习项目之一,而这一次,它终于跑进了耳机。

该模型现已全面铺开至三条产品线:

  • 普通用户:通过 Android 和 iOS 版 Google Translate App 使用

  • 企业用户:在 Google Meet 中以私有预览形式提供

  • 开发者:通过 Gemini Live API 和 Google AI Studio 开放公开预览

二、核心功能特色

2.1 连续流式翻译:告别尴尬停顿

传统的轮流式翻译系统通常要等说话者说完后才开始翻译,节奏全断。Gemini 3.5 Live Translate 则会连续生成语音,在“等待更多上下文以提升翻译质量”和“即时翻译以跟上说话者节奏”之间取得动态平衡。整个会话过程中,翻译音频可以保持流畅,避免尴尬停顿,并始终只比说话者慢几秒。

2.2 声学特征高保真还原

这是该模型最具突破性的特性之一。Gemini 3.5 Live Translate 能够自动保留说话者的语调、语速和音高,翻译生成的语音听起来更像是说话者本人的声音,而不是冷冰冰的机器音。你着急,译音也跟着急;你慢条斯理,译音也悠着来——这种声音层面的“人味儿”大幅提升了跨语言沟通的自然度。

2.3 广泛的语言支持

模型可自动检测并支持 70 多种语言,无需手动选择源语言和目标语言。在 Google Meet 中,这一能力进一步扩展为超过 2000 种语言组合的直接互译,突破了此前仅支持与英语互译的 5 种语言限制。

2.4 强大的抗噪能力

Gemini 3.5 Live Translate 针对日常沟通中的复杂声学环境进行了优化,即使在嘈杂的街头、多人声音重叠或夹杂口语俚语的场景中,依然能保持稳定的识别与翻译表现。菜市场、机场、马路边,都能用。

2.5 SynthID 数字水印

所有由 Gemini 3.5 Live Translate 生成的音频均嵌入了 SynthID 不可感知的数字水印,直接融入音频波形信号中,确保 AI 生成内容始终可被检测识别,有助于防范虚假信息传播和身份冒用。谷歌表示目前没有方法可以移除该水印。

2.6 多平台无缝接入

模型已整合进 Google 全生态产品矩阵,涵盖 Google Translate(移动 App)、Google Meet(视频会议)、Gemini Live API 和 Google AI Studio(开发者平台),实现从个人到企业再到开发者的全覆盖。

Gemini 3.5 Live Translate:谷歌推出的实时语音翻译模型,突破传统交替传译限制

三、技术细节

3.1 模型架构

Gemini 3.5 Live Translate 基于 Gemini 3 Pro 打造,能够处理最长 128K token 的音频上下文。它是一种端到端的语音到语音模型,摒弃了传统“语音识别→机器翻译→语音合成”的三段式管道架构,实现了更高效的流式翻译处理。

3.2 流式生成机制

模型在接收音频流的同时进行预测与连续生成,摒弃了等待发言结束才翻译的单回合传统架构。评测指标聚焦于三个维度:翻译质量、延迟、语音自然度。换句话说,谷歌给它的 KPI 不是单纯的“翻得对”,而是“聊得顺”。

3.3 延迟表现

翻译语音全程仅比说话者慢数秒,足够跟上正常对话节奏,真正实现了边听边译的实时体验。在受控环境下,延迟表现更为优异。

3.4 开发者 API 配置

开发者可通过 Gemini Live API 配置该功能,使用 targetLanguageCodeechoTargetLanguage 参数进行设置。输入音频采样率为 16kHz,输出采样率为 24kHz,专为实时语音通信场景优化。

3.5 生态集成

Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等主流实时通信(RTC)平台已接入 Gemini Live API,将复杂的实时媒体流传输基础设施封装好,开发者无须关注采集、传输、回声消除等底层细节,可以专注于用户体验本身。

四、应用场景

Gemini 3.5 Live Translate 的多平台部署使其适用于广泛的真实使用场景,从个人出行到企业会议均能发挥作用。

4.1 个人出行与旅游

在异国旅行时,只需打开 Google Translate App 并连接耳机(或使用 Android 专属的“听筒模式”),即可实时将对方的话语翻译成用户母语。场景覆盖酒店入住、问路、点餐、购物等日常交流。

4.2 跨国网约车/外卖服务

东南亚出行平台 Grab 正在测试该模型,以实现司机与乘客在接送过程中的多语言沟通。Grab 平台用户每月通过平台拨打超过 1000 万次语音通话,司机说本地话,乘客听到的是自己的母语,解决了“你在哪”“我马上到”等高频交流场景的语言障碍。

Grab 首席产品官表示,公司看重这一模型自动识别多种语言、以低延迟准确翻译语音的能力。

4.3 跨国企业会议

Google Meet 将引入 Gemini 3.5 Live Translate,支持语言从此前仅有的 5 种扩展至 70 余种,单场会议可支持超过 2000 种语言组合的互译,不再局限于英语作为中间语言。界面新增一键启动语音翻译的按钮。

4.4 多语言客服与呼叫中心

开发者可将该模型用于多语言通话场景,客户服务人员与全球各地的客户实现实时无障碍沟通。娱乐巨头 CJ ENM 也在测试提供针对全球观众的实时同传与配音服务。

4.5 课堂教学与讲座

在国际学术交流、在线课程等教育场景中,讲师可使用该模型为多语言学生提供实时口译,字幕与语音同步输出,极大提升教学覆盖范围和跨语言学习体验。

4.6 直播与广播

在全球化直播场景中,Gemini 3.5 Live Translate 可实现实时视频配音和多语言同步翻译,帮助内容创作者触达更广泛的全球受众。

五、使用方法

5.1 Google Translate App(普通用户)

使用流程:

  1. 准备工作

    • 确保 Google Translate App 已更新至最新版本(Android / iOS)

    • 连接任意一副耳机(蓝牙或有线均可)

  2. 开启功能

    • 打开 Google Translate App

    • 点击左下角的 “Live translate”(实时翻译)按钮

    • 上方选择双方沟通的语言对(如中文→西班牙语)

  3. 开始对话

    • 模型自动检测谁在说话,无需手动切换麦克风

    • 说出的内容会实时通过耳机播放翻译音频

    • 全程仅落后说话者数秒,无需等待停顿

5.2 Android 专属:听筒模式(Listening Mode)

Android 用户将获得一个独家惊喜——全新的 “听筒模式” 。在没有耳机或不方便使用耳机的场景下,用户只需像接听普通电话一样将手机举到耳边,即可通过手机听筒直接收听实时翻译内容,旁人无法听到译音,保障隐私的同时更加便捷。

使用场景示例:在博物馆听外语导览,或与外国友人密谈时,掏出手机往耳边一贴就能救急,临时没带耳机也无妨。

5.3 Google Meet(企业用户)

企业客户可通过 Google Workspace 申请参与私有预览。在网页端会议控制栏中,新增的语音翻译按钮可一键启动功能,支持 70+ 语言的会议互译和 2000+ 种语言组合。本月起面向部分企业用户开放,更大范围推广预计于今年晚些时候进行。

5.4 开发者集成

开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版,构建适用于多语言通话、会议、课程和广播等场景的实时口译功能。感兴趣者可访问 Gemini Cookbook 查看演示示例及参考代码。

六、竞品对比

6.1 DeepL Voice

DeepL Voice 是 DeepL 于 2026 年推出的实时语音翻译产品,包括面向视频会议的 DeepL Voice for Meetings 和面向面对面交流的 DeepL Voice for Conversations。

优势:

  • 翻译质量精度高:在 Slator 的第三方独立评测中,DeepL Voice 获得了 96.4/100 的翻译质量评分,显著领先于竞品平台的 87-89 分。

  • 会议术语库:可自定义特定行业术语、公司名称、产品名称和缩写,确保专业场景下的翻译准确度。

  • 多平台深度集成:已接入 Zoom、Microsoft Teams 和 Google Meet 三大主流视频会议平台。

局限:

  • 主要聚焦于视频会议和面对面对话场景

  • 面向个人用户的免费版限制较多

  • 语音合成自然度相对低于 Gemini 3.5 Live Translate

6.2 微软 GPT Realtime Translate

微软于 2026 年 5 月推出 GPT Realtime Translate,这是一款专为连续实时音频翻译设计的大模型,支持 76 种语言和 143 个地区,具备自动语言识别和低延迟等特点。

优势:

  • 低延迟表现:采用连续音频流处理架构,延迟表现可媲美专业人工口译。

  • 个人语音功能:能保留说话者的风格与语调,使翻译后的语音更自然。

  • 广泛语言覆盖:支持 76 种输入语言和 143 个地区。

局限:

  • 发布时间晚于 Gemini 3.5 Live Translate,生态集成相对滞后

  • 主要面向企业 API 场景,个人端产品体验尚不完善

  • 缺乏类似 Google 翻译 App 的轻量级个人移动端体验

6.3 功能对比表

对比维度 Gemini 3.5 Live Translate DeepL Voice 微软 GPT Realtime Translate
发布及发布时间 2026年6月,谷歌 2026年4月,DeepL 2026年5月,微软
支持语言数 70+ 种 约 30+ 种(主要为主要语言) 76 种
语言组合 2000+ 种(不限于英语枢纽) 有限组合,依赖主要语言对 以英语为主枢的语言对
核心技术 连续流式生成,语音到语音端到端 高精度转录+翻译管道 连续流式生成
语音合成 保留声调、语速、音高,极近真人 标准TTS,风格较中立 保留个人语音风格
延迟表现 仅数秒 约 5-10 秒 低延迟,可媲美人工口译
核心平台 Google Translate、Google Meet、API Zoom、Teams、Google Meet Azure API、Teams
个人移动端 ✅ Android/iOS App ✅ DeepL Voice for Conversations(App) ❌ 主要为API/企业
听筒模式 ✅ Android专属
水印标记 ✅ SynthID 未明确
定价模式 个人版免费,企业版待定 企业订阅制 企业订阅/Azure 用量计费

七、常见问题解答

【Q】Gemini 3.5 Live Translate 支持哪些语言?

A:该模型支持超过 70 种语言的自动检测与实时互译。在 Google Meet 中可实现 2000 余种语言组合的直接翻译,突破了此前仅支持与英语互译的 5 种语言限制。支持的语言包括中文、英语、西班牙语、日语、法语、德语等全球主要语言,即使中途切换语言也能自动识别。

【Q】必须佩戴耳机才能使用吗?

A:在 Google Translate App 中使用实时翻译功能时,通常需要连接任意一副耳机(蓝牙或有线均可)才能激活功能。但 Android 用户专属的“听筒模式”是一项例外——在没有耳机的情况下,用户可直接将手机像接听普通电话一样贴到耳边,通过手机听筒收听翻译音频。

【Q】翻译延迟有多大?

A:Gemini 3.5 Live Translate 采用连续流式翻译技术,整个翻译过程始终仅比说话者慢数秒,足以跟上正常对话节奏,几乎感受不到明显停顿。与传统逐句翻译系统长达 10-20 秒的延迟相比,这是显著的进步。

【Q】翻译质量如何?

A:该模型基于 Gemini 3 Pro 打造,能够处理最长 128K token 的音频上下文。合作伙伴 Grab 在测试中反馈翻译质量出色、准确度高、延迟表现优异。模型特别擅长在“等待更多上下文以提升翻译质量”和“即时翻译以跟上说话者节奏”之间寻找最佳平衡点。

【Q】噪音大的地方能用吗?

A:可以。模型内置了强大的抗噪能力,专为嘈杂、复杂的真实环境设计,如菜市场、机场、马路边、多人声音重叠或夹杂口语俚语的场景均可使用。

【Q】翻译音频会被保留吗?

A:目前在 Google Translate App 中,翻译音频不会被自动保存记录。所有生成的音频都会嵌入 SynthID 数字水印以标记 AI 生成属性,但不提供通话录音功能。需要记录翻译内容的话,建议用户自行使用录屏或其他录音工具。

【Q】AI 生成的翻译是否会被滥用?

A:谷歌在安全性方面做了多重防护。所有由 Gemini 3.5 Live Translate 生成的音频输出均已嵌入 SynthID 水印,这种不可感知的水印直接融入音频波形信号中,确保 AI 生成内容始终可被检测识别,有助于防止虚假信息传播和身份冒用。谷歌表示目前没有方法可以移除该水印。

【Q】开发者如何接入这个功能?

A:开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版。API 配置时需指定 targetLanguageCodeechoTargetLanguage 参数,输入音频采样率 16kHz,输出采样率 24kHz。目前已接入 Agora、Fishjam、LiveKit 等主流 RTC 平台。感兴趣者可访问 Gemini Cookbook 查看演示示例及更多参考代码。

【Q】Google Meet 上的实时翻译能支持哪些语言组合?

A:Google Meet 的更新将此前仅支持 5 种语言(且局限于与英语互译)的限制扩展到支持 70 余种语言,单次会议可实现超过 2000 种语言组合的直接互译。例如,普通话可以直接翻译成西班牙语,无需经过英语中转。

【Q】企业用户如何获取 Google Meet 的预览版?

A:本月起,该功能面向特定的 Google Workspace 企业客户以私有预览形式开放。如需参与,建议联系 Google Workspace 客户经理或通过 Google 官方渠道申请。更大范围的推广预计将于今年晚些时候进行。

八、总结

Gemini 3.5 Live Translate 是谷歌在实时语音翻译领域的一次重大技术突破,它通过连续流式翻译机制彻底告别了传统轮流式翻译的尴尬停顿,以仅数秒的延迟实现了近乎同声传译级别的流畅对话体验。该模型不仅能自动识别并互译超过70种语言,还通过声学特征高保真还原让翻译语音保留说话者原有的语调、语速和音高,大幅提升了跨语言沟通的自然度。产品层面,该功能已无缝整合进Google Translate移动App(含Android专属听筒模式)、Google Meet企业会议以及Gemini Live API与AI Studio开发者平台,覆盖从个人出行到企业协作的全场景需求。同时,谷歌通过SynthID数字水印确保了AI生成内容的安全可追溯性,并在合作伙伴Grab的真实商业场景中验证了其在千万级月活用户下的稳定表现。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法