Gemini 3.5 实时翻译:谷歌的实时语音 AI

Avatar
Lisa Ernst · 14.06.2026 · AI 新闻 · 阅读 8 分钟

Google has pushed live speech translation deeper into its Gemini roadmap. Gemini 3.5 Live Translate connects Google Translate, Google Meet and the Gemini Live API into one real-time speech translation story.

Gemini 3.5 实时翻译有哪些变化?

Gemini 3.5 实时翻译专为低延迟语音到语音翻译而设计。与仅翻译文本或等待完整句子结束不同,该模型会连续处理音频流,仅有短暂延迟即可返回翻译后的语音。

谷歌翻译 Gemini 实时翻译界面

来源: 图片来源:谷歌产品截图

谷歌翻译是 Gemini 驱动的实时翻译最可见的消费者界面。该界面在一个应用程序体验中连接了文本、实时语音翻译和练习功能。

此次更新很重要,因为它使实时翻译更接近自然对话。谷歌表示,该系统可以识别 70 多种语言,并保留语气、语速、音高和语调等元素。

该功能在何处可用?

此次推广分为三个产品领域。普通用户在谷歌翻译中看到该功能。企业客户可以在谷歌 Meet 中测试语音翻译。开发人员可以通过 Google AI Studio 和 Gemini Live API 试验该模型。

产品领域 谷歌增加了什么 为何重要
谷歌翻译 手机和耳机用例的实时语音翻译 将手机变成实用的实时翻译器
谷歌 Meet 70 多种语言的语音翻译 改善多语言商务会议和远程协作
Gemini 实时 API 为开发人员提供流式语音到语音翻译 允许应用程序无需从头开始构建整个音频堆栈即可添加翻译

谷歌 Meet 是商业信号

谷歌 Meet 是此次更新对公司尤其重要的平台。实时翻译语音可以使国际会议比仅使用字幕更直接。

谷歌 Meet 视频通话期间显示实时语音翻译

来源: 图片来源:谷歌产品截图

在谷歌 Meet 中,翻译后的语音可以成为参与者之间的音频层,而不仅仅是字幕功能。

对于销售、支持、招聘、教育和国际项目工作,这可以减少摩擦。它不能消除敏感情况下专业翻译员的需求,但可以使日常多语言交流更容易。

来源: 图片来源:谷歌产品截图

AIMarketCap 认为市场发生了更大的变化

AIMarketCap 将此次更新视为超越谷歌产品功能的意义。更广泛的观点是,同步多语言音频可能会成为一项基本平台功能。

这是真正的市场信号。实时翻译正从一项特殊功能转变为基础设施。旅行、客户支持、教育、远程工作和创作者工具的应用程序可以开始将其视为可以构建的基础。

开发者视角:翻译,而非完整代理

对于开发人员来说,重要的区别在于实时翻译与完整实时代理不同。实时代理可以进行推理、调用工具并像助手一样行事。实时翻译更专注于:它接收实时音频并返回翻译后的音频。

谷歌搜索翻译结果(经过 Gemini 式翻译改进)

来源: 图片来源:谷歌产品截图

谷歌还在提高搜索和翻译的翻译质量,特别是对于那些不能逐字翻译的短语、习语和表达方式。

为何定价和 API 访问很重要

API 角度很重要,因为它允许开发人员将实时翻译集成到自己的产品中。旅行应用程序可以翻译司机与乘客的通话。支持工具可以翻译语音消息。学习平台可以提供多语言辅导课程。

限制仍然存在

尽管取得了令人印象深刻的进展,实时语音翻译仍然不是魔法。口音、背景噪音、打断和快速的多人对话仍可能导致问题。

谷歌翻译德语练习屏幕

来源: 图片来源:谷歌产品截图

Gemini 的推广在谷歌翻译练习功能中也可见,在这些练习中,语言学习变得更具互动性和场景化。

这就是为什么高风险场景仍需谨慎。医疗、法律、移民或金融对话可能取决于细微差别。在这些情况下,误译不仅仅是不方便;它可能带来严重的后果。

SynthID 和 AI 生成语音

谷歌表示,其模型生成的音频会使用 SynthID 进行水印。这很重要,因为逼真的翻译语音接近公众对合成语音和语音克隆的担忧。

结论

Gemini 3.5 实时翻译是那些乍看之下简单但具有更大平台意义的更新之一。对用户而言,这意味着在 Translate 和 Meet 中有更好的实时翻译。对开发人员而言,这意味着一个新的流式语音到语音构建块。

最主要的消息很明确:实时多语言语音正成为基础设施。谷歌正试图让翻译感觉不再是一个单独的工具,而更像是一个默认的通信层。有关更多 AI 产品细分和实用的开发人员想法,请访问 Zerlo.

常见问题解答

什么是 Gemini 3.5 实时翻译?

它是谷歌用于实时对话、会议和开发人员应用程序的实时语音到语音翻译模型。

它支持多少种语言?

谷歌表示 Gemini 3.5 实时翻译支持 70 多种语言。

它在谷歌翻译中可用吗?

是的。谷歌正在将 Gemini 驱动的实时翻译功能带入移动设备上的谷歌翻译。

开发人员可以使用它吗?

是的。开发人员可以通过 Google AI Studio 和 Gemini Live API 访问该模型。

它会取代专业翻译员吗?

不。它可以在日常和商务场合提供帮助,但敏感或高风险的对话仍然需要仔细的人工监督。

分享我们的文章!
来源