Gemini 3.5 Live Translate：谷歌推出的实时语音翻译模型，突破传统交替传译限制

AI新闻 AI工具集 1个月前

116

一、Gemini 3.5 Live Translate是什么

Gemini 3.5 Live Translate 是谷歌开源的实时语音到语音（Speech-to-Speech）翻译音频模型。该模型旨在打破跨语言沟通中的语言壁垒，通过先进的“连续流式翻译”技术，实现近乎同声传译级别的流畅对话体验。

传统翻译系统通常采用“轮流式”架构，需要等待说话者说完完整的一句话后才开始处理并输出翻译，导致对话中出现明显的停顿，犹如“打对讲机”。Gemini 3.5 Live Translate彻底颠覆了这一模式——它采用边听边译的连续生成方式，在说话者尚未说完时就开始输出翻译，全程仅比说话者慢几秒，几乎消除了对话中的尴尬停顿。

Jeff Dean 官宣：语音翻译是 Google 跑得最久的机器学习项目之一，而这一次，它终于跑进了耳机。

该模型现已全面铺开至三条产品线：

普通用户：通过 Android 和 iOS 版 Google Translate App 使用
企业用户：在 Google Meet 中以私有预览形式提供
开发者：通过 Gemini Live API 和 Google AI Studio 开放公开预览

二、核心功能特色

2.1 连续流式翻译：告别尴尬停顿

传统的轮流式翻译系统通常要等说话者说完后才开始翻译，节奏全断。Gemini 3.5 Live Translate 则会连续生成语音，在“等待更多上下文以提升翻译质量”和“即时翻译以跟上说话者节奏”之间取得动态平衡。整个会话过程中，翻译音频可以保持流畅，避免尴尬停顿，并始终只比说话者慢几秒。

2.2 声学特征高保真还原

这是该模型最具突破性的特性之一。Gemini 3.5 Live Translate 能够自动保留说话者的语调、语速和音高，翻译生成的语音听起来更像是说话者本人的声音，而不是冷冰冰的机器音。你着急，译音也跟着急；你慢条斯理，译音也悠着来——这种声音层面的“人味儿”大幅提升了跨语言沟通的自然度。

2.3 广泛的语言支持

模型可自动检测并支持 70 多种语言，无需手动选择源语言和目标语言。在 Google Meet 中，这一能力进一步扩展为超过 2000 种语言组合的直接互译，突破了此前仅支持与英语互译的 5 种语言限制。

2.4 强大的抗噪能力

Gemini 3.5 Live Translate 针对日常沟通中的复杂声学环境进行了优化，即使在嘈杂的街头、多人声音重叠或夹杂口语俚语的场景中，依然能保持稳定的识别与翻译表现。菜市场、机场、马路边，都能用。

2.5 SynthID 数字水印

所有由 Gemini 3.5 Live Translate 生成的音频均嵌入了 SynthID 不可感知的数字水印，直接融入音频波形信号中，确保 AI 生成内容始终可被检测识别，有助于防范虚假信息传播和身份冒用。谷歌表示目前没有方法可以移除该水印。

2.6 多平台无缝接入

模型已整合进 Google 全生态产品矩阵，涵盖 Google Translate（移动 App）、Google Meet（视频会议）、Gemini Live API 和 Google AI Studio（开发者平台），实现从个人到企业再到开发者的全覆盖。

Gemini 3.5 Live Translate（图1）

三、技术细节

3.1 模型架构

Gemini 3.5 Live Translate 基于 Gemini 3 Pro 打造，能够处理最长 128K token 的音频上下文。它是一种端到端的语音到语音模型，摒弃了传统“语音识别→机器翻译→语音合成”的三段式管道架构，实现了更高效的流式翻译处理。

3.2 流式生成机制

模型在接收音频流的同时进行预测与连续生成，摒弃了等待发言结束才翻译的单回合传统架构。评测指标聚焦于三个维度：翻译质量、延迟、语音自然度。换句话说，谷歌给它的 KPI 不是单纯的“翻得对”，而是“聊得顺”。

3.3 延迟表现

翻译语音全程仅比说话者慢数秒，足够跟上正常对话节奏，真正实现了边听边译的实时体验。在受控环境下，延迟表现更为优异。

3.4 开发者 API 配置

开发者可通过 Gemini Live API 配置该功能，使用 targetLanguageCode 和 echoTargetLanguage 参数进行设置。输入音频采样率为 16kHz，输出采样率为 24kHz，专为实时语音通信场景优化。

3.5 生态集成

Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等主流实时通信（RTC）平台已接入 Gemini Live API，将复杂的实时媒体流传输基础设施封装好，开发者无须关注采集、传输、回声消除等底层细节，可以专注于用户体验本身。

四、应用场景

Gemini 3.5 Live Translate 的多平台部署使其适用于广泛的真实使用场景，从个人出行到企业会议均能发挥作用。

4.1 个人出行与旅游

在异国旅行时，只需打开 Google Translate App 并连接耳机（或使用 Android 专属的“听筒模式”），即可实时将对方的话语翻译成用户母语。场景覆盖酒店入住、问路、点餐、购物等日常交流。

4.2 跨国网约车/外卖服务

东南亚出行平台 Grab 正在测试该模型，以实现司机与乘客在接送过程中的多语言沟通。Grab 平台用户每月通过平台拨打超过 1000 万次语音通话，司机说本地话，乘客听到的是自己的母语，解决了“你在哪”“我马上到”等高频交流场景的语言障碍。

Grab 首席产品官表示，公司看重这一模型自动识别多种语言、以低延迟准确翻译语音的能力。

4.3 跨国企业会议

Google Meet 将引入 Gemini 3.5 Live Translate，支持语言从此前仅有的 5 种扩展至 70 余种，单场会议可支持超过 2000 种语言组合的互译，不再局限于英语作为中间语言。界面新增一键启动语音翻译的按钮。

4.4 多语言客服与呼叫中心

开发者可将该模型用于多语言通话场景，客户服务人员与全球各地的客户实现实时无障碍沟通。娱乐巨头 CJ ENM 也在测试提供针对全球观众的实时同传与配音服务。

4.5 课堂教学与讲座

在国际学术交流、在线课程等教育场景中，讲师可使用该模型为多语言学生提供实时口译，字幕与语音同步输出，极大提升教学覆盖范围和跨语言学习体验。

4.6 直播与广播

在全球化直播场景中，Gemini 3.5 Live Translate 可实现实时视频配音和多语言同步翻译，帮助内容创作者触达更广泛的全球受众。

五、使用方法

5.1 Google Translate App（普通用户）

使用流程：

准备工作

确保 Google Translate App 已更新至最新版本（Android / iOS）
连接任意一副耳机（蓝牙或有线均可）

开启功能

打开 Google Translate App
点击左下角的 “Live translate”（实时翻译）按钮
上方选择双方沟通的语言对（如中文→西班牙语）

开始对话

模型自动检测谁在说话，无需手动切换麦克风
说出的内容会实时通过耳机播放翻译音频
全程仅落后说话者数秒，无需等待停顿

5.2 Android 专属：听筒模式（Listening Mode）

Android 用户将获得一个独家惊喜——全新的 “听筒模式” 。在没有耳机或不方便使用耳机的场景下，用户只需像接听普通电话一样将手机举到耳边，即可通过手机听筒直接收听实时翻译内容，旁人无法听到译音，保障隐私的同时更加便捷。

使用场景示例：在博物馆听外语导览，或与外国友人密谈时，掏出手机往耳边一贴就能救急，临时没带耳机也无妨。

5.3 Google Meet（企业用户）

企业客户可通过 Google Workspace 申请参与私有预览。在网页端会议控制栏中，新增的语音翻译按钮可一键启动功能，支持 70+ 语言的会议互译和 2000+ 种语言组合。本月起面向部分企业用户开放，更大范围推广预计于今年晚些时候进行。

5.4 开发者集成

开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版，构建适用于多语言通话、会议、课程和广播等场景的实时口译功能。感兴趣者可访问 Gemini Cookbook 查看演示示例及参考代码。

六、竞品对比

6.1 DeepL Voice

DeepL Voice 是 DeepL 于 2026 年推出的实时语音翻译产品，包括面向视频会议的 DeepL Voice for Meetings 和面向面对面交流的 DeepL Voice for Conversations。

优势：

翻译质量精度高：在 Slator 的第三方独立评测中，DeepL Voice 获得了 96.4/100 的翻译质量评分，显著领先于竞品平台的 87-89 分。
会议术语库：可自定义特定行业术语、公司名称、产品名称和缩写，确保专业场景下的翻译准确度。
多平台深度集成：已接入 Zoom、Microsoft Teams 和 Google Meet 三大主流视频会议平台。

局限：

主要聚焦于视频会议和面对面对话场景
面向个人用户的免费版限制较多
语音合成自然度相对低于 Gemini 3.5 Live Translate

6.2 微软 GPT Realtime Translate

微软于 2026 年 5 月推出 GPT Realtime Translate，这是一款专为连续实时音频翻译设计的大模型，支持 76 种语言和 143 个地区，具备自动语言识别和低延迟等特点。

优势：

低延迟表现：采用连续音频流处理架构，延迟表现可媲美专业人工口译。
个人语音功能：能保留说话者的风格与语调，使翻译后的语音更自然。
广泛语言覆盖：支持 76 种输入语言和 143 个地区。

局限：

发布时间晚于 Gemini 3.5 Live Translate，生态集成相对滞后
主要面向企业 API 场景，个人端产品体验尚不完善
缺乏类似 Google 翻译 App 的轻量级个人移动端体验

6.3 功能对比表

对比维度	Gemini 3.5 Live Translate	DeepL Voice	微软 GPT Realtime Translate
发布及发布时间	2026年6月，谷歌	2026年4月，DeepL	2026年5月，微软
支持语言数	70+ 种	约 30+ 种（主要为主要语言）	76 种
语言组合	2000+ 种（不限于英语枢纽）	有限组合，依赖主要语言对	以英语为主枢的语言对
核心技术	连续流式生成，语音到语音端到端	高精度转录+翻译管道	连续流式生成
语音合成	保留声调、语速、音高，极近真人	标准TTS，风格较中立	保留个人语音风格
延迟表现	仅数秒	约 5-10 秒	低延迟，可媲美人工口译
核心平台	Google Translate、Google Meet、API	Zoom、Teams、Google Meet	Azure API、Teams
个人移动端	✅ Android/iOS App	✅ DeepL Voice for Conversations（App）	❌ 主要为API/企业
听筒模式	✅ Android专属	❌	❌
水印标记	✅ SynthID	❌	未明确
定价模式	个人版免费，企业版待定	企业订阅制	企业订阅/Azure 用量计费

七、常见问题解答

【Q】Gemini 3.5 Live Translate 支持哪些语言？

A：该模型支持超过 70 种语言的自动检测与实时互译。在 Google Meet 中可实现 2000 余种语言组合的直接翻译，突破了此前仅支持与英语互译的 5 种语言限制。支持的语言包括中文、英语、西班牙语、日语、法语、德语等全球主要语言，即使中途切换语言也能自动识别。

【Q】必须佩戴耳机才能使用吗？

A：在 Google Translate App 中使用实时翻译功能时，通常需要连接任意一副耳机（蓝牙或有线均可）才能激活功能。但 Android 用户专属的“听筒模式”是一项例外——在没有耳机的情况下，用户可直接将手机像接听普通电话一样贴到耳边，通过手机听筒收听翻译音频。

【Q】翻译延迟有多大？

A：Gemini 3.5 Live Translate 采用连续流式翻译技术，整个翻译过程始终仅比说话者慢数秒，足以跟上正常对话节奏，几乎感受不到明显停顿。与传统逐句翻译系统长达 10-20 秒的延迟相比，这是显著的进步。

【Q】翻译质量如何？

A：该模型基于 Gemini 3 Pro 打造，能够处理最长 128K token 的音频上下文。合作伙伴 Grab 在测试中反馈翻译质量出色、准确度高、延迟表现优异。模型特别擅长在“等待更多上下文以提升翻译质量”和“即时翻译以跟上说话者节奏”之间寻找最佳平衡点。

【Q】噪音大的地方能用吗？

A：可以。模型内置了强大的抗噪能力，专为嘈杂、复杂的真实环境设计，如菜市场、机场、马路边、多人声音重叠或夹杂口语俚语的场景均可使用。

【Q】翻译音频会被保留吗？

A：目前在 Google Translate App 中，翻译音频不会被自动保存记录。所有生成的音频都会嵌入 SynthID 数字水印以标记 AI 生成属性，但不提供通话录音功能。需要记录翻译内容的话，建议用户自行使用录屏或其他录音工具。

【Q】AI 生成的翻译是否会被滥用？

A：谷歌在安全性方面做了多重防护。所有由 Gemini 3.5 Live Translate 生成的音频输出均已嵌入 SynthID 水印，这种不可感知的水印直接融入音频波形信号中，确保 AI 生成内容始终可被检测识别，有助于防止虚假信息传播和身份冒用。谷歌表示目前没有方法可以移除该水印。

【Q】开发者如何接入这个功能？

A：开发者可通过 Gemini Live API 和 Google AI Studio 获取公开预览版。API 配置时需指定 targetLanguageCode 和 echoTargetLanguage 参数，输入音频采样率 16kHz，输出采样率 24kHz。目前已接入 Agora、Fishjam、LiveKit 等主流 RTC 平台。感兴趣者可访问 Gemini Cookbook 查看演示示例及更多参考代码。

【Q】Google Meet 上的实时翻译能支持哪些语言组合？

A：Google Meet 的更新将此前仅支持 5 种语言（且局限于与英语互译）的限制扩展到支持 70 余种语言，单次会议可实现超过 2000 种语言组合的直接互译。例如，普通话可以直接翻译成西班牙语，无需经过英语中转。

【Q】企业用户如何获取 Google Meet 的预览版？

A：本月起，该功能面向特定的 Google Workspace 企业客户以私有预览形式开放。如需参与，建议联系 Google Workspace 客户经理或通过 Google 官方渠道申请。更大范围的推广预计将于今年晚些时候进行。

八、总结

Gemini 3.5 Live Translate 是谷歌在实时语音翻译领域的一次重大技术突破，它通过连续流式翻译机制彻底告别了传统轮流式翻译的尴尬停顿，以仅数秒的延迟实现了近乎同声传译级别的流畅对话体验。该模型不仅能自动识别并互译超过70种语言，还通过声学特征高保真还原让翻译语音保留说话者原有的语调、语速和音高，大幅提升了跨语言沟通的自然度。产品层面，该功能已无缝整合进Google Translate移动App（含Android专属听筒模式）、Google Meet企业会议以及Gemini Live API与AI Studio开发者平台，覆盖从个人出行到企业协作的全场景需求。同时，谷歌通过SynthID数字水印确保了AI生成内容的安全可追溯性，并在合作伙伴Grab的真实商业场景中验证了其在千万级月活用户下的稳定表现。

实时语音翻译 AI同传同声传译

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/gemini-3-5-live-translate.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注