科创板日报 03-21
OpenAI推出语音模型全家桶:AI将说得更动情、听写更准确…
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

财联社 3 月 21 日讯(编辑 刘蕊)美东时间周四,OpenAI 举行了一场重磅的技术直播,发布了三款全新语音模型:语音转文本模型 GPT-4o Transcribe 和 GPT-4o MiniTranscribe,以及文本转语音模型 GPT-4o MiniTTS。

OpenAI 声称,这些模型在之前版本的基础上取得了明显的进步,也标志着 OpenAI 距离其 "AI 智能体(AI AGENT)" 的愿景更进一步。

更逼真的语音生成模型

OpenAI 声称,其新的文本到语音模型 GPT-4o MiniTTS 不仅能提供更细致入微、听起来更逼真的语音,而且比前一代语音合成模型更 " 可操控 "。

开发人员可以指导该模型如何用自然语言说话——例如," 像一个疯狂的科学家一样说话 "、" 像一个富有同理心的客服一样说话 " 或 " 像一个正念老师一样使用平静的声音 "。

OpenAI 在其官网给出了六种不同的语气示例

OpenAI 产品人员杰夫哈里斯 ( Jeff Harris ) 表示,他们的目标是让开发者能够定制语音 " 体验 " 和 " 环境 "。

哈里斯表示:" 在不同的情况下,你想要的不会仅仅是一个平淡、单调的声音…如果你在客户支持体验中,你希望这个声音表达出犯错后的歉意,你可以让声音表达出那种情感……我们的信念是,开发者和用户不仅想要真正控制说什么,还想要控制怎么说。"

语音转文字模型准确率大幅提升

至于 OpenAI 的新语音转文本模型 "GPT-4o-transcript" 和 "GPT-4o-mini- transcript",它们的准确度明显高于 OpenAI 之前发布的语音转文本模型 Whisper,并在多种语言中实现更低的词错误率 ( WER ) 。

新模型在多种语言中的错误率都明显更低

OpenAI 声称,经过 " 多样化、高质量音频数据集 " 的训练,新模型可以更好地捕捉口音和不同的语音,即使在混乱的环境中也是如此。

OpenAI 还表示,新模型在工作中产生幻觉的概率也降低了。哈里斯补充道。众所周知,Whisper 喜欢在谈话中编造词汇,甚至整段文字,而 " 新模型在这方面比 Whisper 有了很大的改进。"

哈里斯表示:" 确保模型的准确性对于获得可靠的语音体验至关重要,(在这种情况下)准确性意味着模型准确地听到了单词,(并且)没有填写他们没有听到的细节。"

当然,模型的准确率和其被转录的语言有较大关系。

根据 OpenAI 的内部基准测试,GPT-4o-transcribe 是两种新转录模型中更准确的一种,其在英语、西班牙语中的单词错误率仅有 2% 左右,在普通话中的错误率为 7% 左右,而在印度语和达罗毗荼语系(如泰米尔语、泰卢固语等)中,其 " 单词错误率 " 仍接近 30%,这意味着模型中每 10 个单词中就有 3 个与这些语言的人类转录不同。

距离 AI 智能体更进一步

OpenAI 声称,这些模型符合其更广泛的 "AI 智能体(AI AGENT)" 的愿景:构建能够代表用户独立完成任务的自动化系统。

尽管 " 智能体(Agent)" 的定义可能存在争议,但 OpenAI 的产品主管奥利维尔 · 戈德曼(Olivier Godement)将一种解释描述为可以与企业客户交谈的聊天机器人。

" 在接下来的几个月里,我们会看到越来越多的 AI 智能体出现," 戈德蒙德表示," 因此,总的主题是帮助客户和开发者利用有用、可用和准确的智能体。"

与传统不同的是,OpenAI 并不打算公开其新的转录模型。该公司此前在麻省理工学院的许可下发布了用于商业用途的新版 Whisper。

哈里斯表示,GPT- 4o -transcribe 和 GPT- 4o -mini-transcribe" 比 Whisper 大得多 ",因此不适合公开发布。

" 它们不是那种能在笔记本电脑上本地运行的模式,比如 Whisper 那种," 他继续说道," 我们想确保,如果我们以开源方式发布东西,我们是经过深思熟虑的,我们有一个真正针对特定需求的模型。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

哈里斯 准确 指导 词汇 财联社
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论