近日,翻译领域,科技巨头谷歌甩出一个大招:
将刚刚升级的 Gemini 2.5 Flash 原生语音模型整合进 Google 翻译,推出一项耳机实时语音翻译的测试版功能。该功能适配任何耳机,用户只要戴上耳机,都能进行实时翻译,获取单向的同声传译。更重要的一点是,翻译可以保留讲话者的语气、重音和语速。
任意耳机零成本实时翻译、AI 翻译 " 带情绪 ",这每一点在当前的翻译市场都是相当炸裂的。它将给翻译和语言学习行业带来不小的影响,翻译背后的智能硬件,如翻译耳机、AI 眼镜或许也会受到一定冲击,我爱音频网报道。
谷歌 AI 同声传译重构实时翻译体验
这是 Google 官方发布的 Gemini 实时语音翻译功能的演示视频。
视频显示,你只要干三件事,就能实时翻译:戴上耳机、打开 Google 翻译 APP、点击 Live translate。
此次谷歌推出的 AI 同声传译功能,接入了 Gemini 2.5 Flash 原生语音模型,相当于给翻译工具外挂了一个大脑,使得最终的实时翻译体验较传统有显著的提升。
任意耳机秒变 " 同传神器 "
今年 9 月,苹果在 AirPods Pro 3 中首次推出实时翻译功能。但要使用该功能,必须搭配一部已启用 Apple Intelligence、并升级到 iOS 26 或更新版本的 iPhone 使用。目前仅支持 iPhone 15 Pro 及以上机型。
与苹果 " 实时翻译 " 需绑定指定机型不同,谷歌的这个新功能因为是基于 Gemini 2.5 Flash 原生语音模型,所以它可以适配任何机型。
无论是老旧有线耳机、普通蓝牙耳机,还是 AI 耳机,只需连接安装 Google 翻译 APP 的安卓设备,即可激活同声传译功能。
从 " 逐字直译 " 到 " 带情绪传递 "
传统机器翻译,大多是生硬、逐字逐句去翻译,偏重信息翻译的准确性,体验感比较差。
Google 新的 AI 同声传译功能,首次实现翻译 " 带情绪 "。谷歌产品管理副总裁 Rose Yao 的介绍,这项功能不仅能翻译语音,还能保留说话者的语调、重音和说话节奏,从而让对话更加自然,也更容易区分不同的发言者。
比如英语说话者的调侃语调、西班牙语的热情重音、中文的含蓄语速,Google 实时翻译通过 Gemini 2.5 Flash 原生音频处理技术都能完整保留这些特征。
单向聆听与双向对话全覆盖
当你戴耳机,打开 Google 的实时翻译功能之后,它就会自动持续监听你周围环境的语言。
你出国旅游,在地铁、街上、餐厅、酒店……所有地点,不管别人讲日语、韩语、德语,你的耳机都能传来中文的播报。你参加国外学术会议、听外文演讲、讲座、观看电影,它也都能实时翻译成中文。
当你需要跨语言交流时,也不用担心。双方只要都戴上耳机,Google 翻译系统就会自动识别说话者语言,无需提前设置语种,将对方的语言实时翻译成你的母语传递到你的耳机,同时将你的回应翻译后通过手机播报给对方,实现双向流畅沟通。
演示视频展示了四个人跨语言交流的场景,四个人分别说韩语、英语、中文、德语,Google 实时翻译可以在多人环境中识别出主要的说话者,并能在对话中途切换语言。
目前,Google 实时翻译支持超过 70 种语言和 2000 个语言对的语音翻译。
据悉,耳机实时语音翻译的测试版功能从上周五已经开始向美国、墨西哥和印度的所有安卓设备推送,2026 年会进一步支持苹果 iOS 生态以及更多国家和地区。
不过,不少体验该功能的海外网友表示,「实时翻译、识别不够准确」。
据谷歌披露, 相较先前版本的模型,新升级的 Gemini 2.5 Flash 原生语音模型的准确率已提升至 71.5%,多轮对话质量从 62% 上升到 83%,它在变得更靠谱,但准确率确实有待提升,尤其专业学术领域。
传统同声传译方案或将受冲击
在谷歌入局前,市场上的同声传译方案主要由三类玩家主导。
一是以科大讯飞翻译机、时空壶翻译耳机为代表,这类厂商将翻译系统嵌入专属硬件实现同声传译功能。它们翻译的准确率很高,甚至可高达 95%,是目前翻译准确率最高的一类方案。而且,具有离线翻译、专业领域(如医疗、法律)定制化的核心竞争优势。
但这类方案,硬件成本很高,也导致产品售价多在千元级。当前时空壶热销的 Timekettle W4 Pro 同声翻译耳机售价 2699 元,讯飞 iFLYBUDS Pro 3 售价也要 1184 元。它们主要面向商务精英、政务人员等高端用户,难以普及到普通用户。
二是以苹果为代表,有自己生态的。它今年发布的 AirPods Pro 3 首次搭载 AI 实时语音翻译功能。
它的 " 同声传译 " 需要依赖自家硬件生态,必须搭配已启用 Apple Intelligence 的 iPhone 才能使用。这意味着非苹果用户或使用旧款设备的用户无法享受到苹果的同声传译功能。
而且 AirPods Pro 3 实时翻译支持的语种较少,目前仅支持英语、法语、德语、葡萄牙语、西班牙语 5 种语言,远低于谷歌的 70 种。AirPods Pro 3 国行版暂未支持实时翻译功能。
三是以 Nebulabuds 为代表的轻量化 APP 方案。它通过手机 APP 连接普通耳机实现翻译。
这类方案没有任何硬件成本,获大量中低端耳机采用,成为此前耳机厂商实时翻译较快上市的一种方案。它支持双耳翻译、音视频通话翻译、同声传译等功能,翻译准确性也可以到 93%。
但 Nebulabuds 的翻译能力其实依赖的第三方 AI 大模型,国内版主要接入了豆包、DeepSeek,海外版则接入 OpenAI 的 ChatGPT。这类方案,它需要耳机厂商和 Nebulabuds 进行商业合作,扫描耳机激活码才能将普通耳机升级为实时翻译,还没有普及到所有耳机都能使用。
与上面三类玩家相比,谷歌新推出的 AI 同声传译方案,它不需要任何硬件成本,也不用搭配指定机型,所有耳机下载 Google 翻译 APP 后连接耳机都能用上实时翻译功能。
在一定程度上,谷歌的 AI 同声传译填补了上述三类方案的空白。它实现了所有耳机都能用实时翻译,实时翻译将不再能成为耳机的 " 卖点 "。但有一说一,谷歌这个方案,翻译准确度还有待提升,还替代不了科大讯飞、时空壶的离线翻译、专业领域翻译。
我爱音频网总结
基于 Gemini 2.5 Flash 原生语音模型,谷歌推出 AI 同声传译功能,实现任意耳机升级为翻译耳机,翻译还突破性还原说话者的语调、语速和节奏,支持单向聆听与双向对话,很好地提升了翻译体验。这种全新同声传译方案将对传统依靠硬件或苹果生态的方案造成一定冲击,耳机、AI 眼镜不再能单纯依靠 " 实时翻译 " 作为产品卖点。


登录后才可以发布评论哦
打开小程序可以发布评论哦