我爱音频网 08-05
全面拥抱AI!音频行业新趋势展望:语音助手只是开胃菜
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

前言

在 ChatGPT 问世并惊艳世界后的这几年里,AI,特别是生成式 AI,已翻天覆地般改变了世界:末端应用层面,能高度理解自然语言的对话机器人(ChatBot)成为我们日常生活的一环,「生成式 AI 辅助,人类智力主导」的工作方式,已经深入新闻、传媒等行业,主宰文字、美术等岗位;上游产业方面,AI 算力性能成为硬件产品的追逐目标,从最前端的芯片半导体、到 2C 端的手机、电脑等消费电子产品,品牌厂商无不以 AI 算力作为产品特性。

AI 几乎能与千行百业融合,是一种「新质生产力」。就如蒸汽机变革了工业、移动互联网互联网改变了各行各业一样,AI 也定会为音频行业带来变革,为音频行业带来新的爆发点。

我们正处于 AI 时代的黎明,虽无法在「上帝视角」的角度全面预判 AI 对行业的变革,但依然可透过端倪把握行业脉搏。我爱音频网专注音频行业,对于 AI 这一新质生产力的新引擎,我们试从四个角度入手,整理出音频行业有关 AI 的新趋势。下面我们来一起深入探讨。

音频

「声音」始终是音频行业的根基基石。耳机、音箱等音频产品的好声音,与芯片、单元等硬件,以及算法、均衡器等软件均息息相关。AI 介入之下,音频行业从上游到末端,都受益于将智能化的红利。

AI 介入上游硬件设计阶段:DSP 芯片、音响室、声学材料设计等声学硬件

人工智能 AI 是一个大概念,从广义的角度来看,AI 对于音频行业的影响,在硬件阶段就已开始。我们已经看到,AI 已经开始在半导体(芯片)与声学硬件这两大板块的设计上施加影响。

现代消费电子行业与产品的「根基」和「起点」是半导体设计,具体到音频品类,则主要是数字信号处理芯片 DSP。在半导体层面置入 AI 专用处理单元后,DSP 芯片将在硬件上拥有 AI 运算的能力,为后续音频特性提供支持。另外,AMD、Nvidia 等半导体厂商已经在半导体电路设计阶段使用 AI 工具,即一定程度上「让 AI 设计自己」。此类技术也将适用于音频行业中,推动音频芯片产品的快速迭代。

另一方面,在发声单元、声学材料、腔体结构等非半导体声学硬件中,AI 也可提供帮助。例如,在混响室、隔音室、消声室等声学室的设计组件中,引入 AI 可推动提升设计效率,有助于音频产品的快速落地。

最新前沿技术应用:

高通 Qualcomm 已在旗下音频芯片中引进 AI 技术,Qualcomm S3 Gen 3、S5 Gen 3、S7 和 S7 Pro 等音频芯片都配备了硬件级 AI 处理单元,让音频产品在主动降噪、人声处理等功能上表现更优。

另一方面,恩智浦半导体 NXP 也为旗下车机芯片预置 AI 单元。其最新产品 SAF9000 与 SAF 9100 系列芯片的音频模组配置了两个 DSP 模块,均有 AI 优化设计,在处理神经网络、机器学习等运算时会更快。

其中,炬芯发布的 ATS286X 是一款升级为 CPU+DSP+NPU 三核异构的高端 AI 音频芯片,打造基于 CPU+DSP 双核异构音频处理架构的低功耗下的低延迟高音质技术,ATS286X 芯片则是在这方面的进一步升级,旨在顺应 AI 人工智能的发展大势,为便携式产品提供更大的算力。这颗芯片将为 AI 降噪、人声分离、人声隔离等应用带来高品质的提升,可广泛应用于智能音频、智能办公、智能教育、智能陪护等多个市场领域,将于 24 年年底正式面世。

AI 介入中游音频算法阶段:主动降噪、人声分离技术

在声音呈现的中游阶段——算法层面,AI 可为主动降噪、人声分离技术等带来更好效果。以主动降噪技术为例,传统主动降噪的原理是多个拾音麦克风模组中特定声波的抵消处理,算法主要基于物理。引进 AI 大模型技术技术后,在传统算法之外,还能加入大模型降噪的环节,进一步压低环境噪音,带来更好的噪声屏蔽效果。

另外,这种技术也可用于人声处理。音频厂商、软件厂商等已在电话通话、语音会议等场景下应用相关技术,分离人声与背景声,提高沟通效率。

华盛顿大学科研团队提出了用 AI 实现实时主动降噪的方法,可以在不改变耳机音频的情况下消除用户指定的声音。该团队用基于智能手机的神经网络识别、训练和过滤了 20 种不同的环境声音类别,例如人们日常通常会听到的警报声和闹钟声。

这种主动降噪技术基于 AI 算力,且可实现特定声音的单向屏蔽和保留,为未来耳机产品主动降噪的架构迭代和功能演进指出了一条新路。

AI 介入消费者端音频算法阶段:听觉优化、个性化音频技术

在音频表现的末游即消费者端,AI 也有充足的发挥空间——听觉优化与个性化音频。音频的「保真度 / 还原度」有客观指标,但消费者的个人便好却难以以「同一把尺子」量化,因此,AI 在音频后处理的阶段便有用武之地。

借由对用户偏好大数据的分析,耳机品牌厂商、播放器硬件厂商和音乐平台软件可以根据大模型和智能测试推算出消费者的听觉便好,实现智能而个性化的音频呈现。这类 AI 应用,最直接的例子,有「扫描耳廓实现最佳音频」「智能均衡器」等等。

硬件层面,已有多个品牌为音频产品实现「扫描耳廓智能设置音效」的技术。例如,苹果在 iOS 16 以后就加入了相应应用,用户可以使用 iPhone 扫描耳朵来获得「个性化空间音频」的听觉效果。

软件层面,QQ 音乐音频技术总监闫震海此前接受访问时说到,近年的新功能「银河音效」就针对细分场景进行拆分。在实现的过程中,软件会需要通过一些技术手段去获取当前的播放环境,然后针对性地去做一些后处理。另外,QQ 音乐的新功能还让用户在歌单制作时可以配置专属的音效。

在这一板块,Meta 公司也针对性的推出了 AI 声音生成模型 Audiobox,它基于今年 6 月的 Voicebox AI 模型,能同时接收语音及文字输入生成所需音频,具备生成各种环境音、自然对话语音的能力,并整合了音频生成和编辑能力,以降低声音生成门槛。

Audiobox 是汇聚六个 AI 工具的 " 模型系列 ",包括从文本直接生成音效、克隆声音、通过文本提示生成特定声音、结合语音输入与文本样式提示生成语音、声音填充、擦除指定部分音频等功能。Meta 称 Audiobox 是首个支持声音样本和文本描述提示双输入的语音生成大模型,提高了用例结果的可控性,创建的音频带有自动水印。目前已向特定研究人员及学术界试用,Meta 计划未来几周向社会全面公开。

交互

大模型类 AI 技术近年来经验了世界,这类技术所擅长的自然语言识别、理解、生成,则与音频产品似天作之合。语音助手音频交互不是新鲜事物,但可预见的是,在 AI 革命之下,音频交互的重要性将迎新飞跃。

语音助手性能空前加强:AIGC 对用户语音指令的理解力及回应能力提高

以 GPT 为代表的生成式 AI 在数年间改变了我们的生活方式,其最常见、最深刻的影响,是对人机交互方式的变革。生成式 AI 对自然语言文本的理解能力、生成能力都显著提高,已经可以「像自然人一般」理解用户的输入、给出回应。这种突破性的能力,具体到音频产品层面,就是「语音助手性能的增强」。

目前,音频、手机,甚至是汽车等行业都正争先将传统语音助手与生成式 AI 技术相融合。生成式 AI 助力之下,音频设备就能更准确、详细地理解、回应用户的语音输入。

不少设备厂商已着手将传统语音助手与生成式 AI 技术相融合。例如,华为小艺、OPPO 小布、小米小爱同学等已经初步接入了大模型(「智能体」);汽车层面,小米 SU7、BYD 最新系列车款等也已通过 AI 技术实现「连续对话能力」,将智能助手从一句一回应的「指令式」升级为随口说、无打断的「自然式」。

2024 年 WWDC24 上,苹果发布 Apple Intelligence 客户端人工智能,能够基于个人场景发挥生成式大模型的强大能力,结合用户的实际情况精准协助用户。Apple Intelligence 助力下的 Siri 能够更深入地了解对话背景,可以在 App 内或者多个 App 间获取信息,更准确地理解上下文和用户意图。

翻译类产品实用性提升:深度学习赋能翻译器类产品

基于巨量数据的大模型和深度学习技术催生了生成式 AI,「机器翻译」技术也同样受益。在 App 软件端,我们已经看到 DeepL 等十分成熟的基于大模型深度学习原理的翻译产品,显示出较传统「机翻」更准确、更自然、更流畅,且能考虑上下文关系的翻译性能。

翻译类硬件产品并非新鲜品类,但以往因翻译能力有限而表现乏力,但机器翻译能力飞跃之下,翻译类产品出现新气象。一些翻译类新品将云上大模型翻译作为核心,结合 TWS 真无线耳机、语音识别,构造出全新的品类形态,为音频行业的跨界和边界拓宽带来新可能。

2023 年首次公布时空壶 Timekettle X1 同声传译器,就是将云上大模型翻译融入翻译硬件,且结合了语音识别、语音生成、TWS 真无线耳机等音频技术的新形态翻译类产品。说话的双方各自佩戴耳机,打开相应的翻译模式,即可在耳机中直接听到对方话语的翻译结果,且也会在终端屏幕上实时显示。我爱音频网此前与时空壶创始人进行专访对谈点击查阅。

另一方面,综合类智能品类也受益于此。INMO Go、阿法龙 Alpha X1 等产品均将语音识别、云上大模型翻译与 AR 眼镜相结合,将外语语音实时转化为眼前能看到的母语文本,为翻译应用提供了新的可能场景。产品详情可以参考我爱音频网评测报告。

交互变革加速,语音交互重要性提高

生成式 AI 更强的语义理解能力不仅强化了语音助手的能力,也进一步推动了人机交互的革新。更精确的大模型能力赋能之下,一些智能产品的交互设计中,语音交互的重要性被前所未有增强,重要性与「触控」同等,甚至成为了「唯一」的交互方式。

从较小的角度看,用户将可以在耳机、智能音箱等传统纯音频产品上,通过「说话」的语音形式执行更多指令,「拿出手机调音量、切歌」的频率会大大降低;从较大的角度看,只设语音交互的、功能更复杂的新类型消费电子品类产品将成为可能,孕育出全新产品形态。

2023 年,Humane 发布旗下新品 Humane AI Pin,一款无屏幕可穿戴式产品,在「胸针」的造型中内置了麦克风、摄像头、投影仪等,可在手掌上投射出一块屏幕,用户将通过语音指令与手势进行人机交互。

Rabbit R1 则是另一款备受关注的新形态设备。Rabbit R1 运行自研的 Rabbit OS,通过 AI 理解自然语言执行任务。用户在使用时,不需像使用手机通过点触触控操作 R1,而只需「开口说」提出指令来控制,为个人随身设备提出了新的可能。

人声转文字技术优化

人声转文字和会议记录转录等语音 - 文本转换,是较早的音频智能化应用,在大模型技术原理的协助下,这些应用再度得到优化飞跃,具体体现为转换结果更精确、实时时效性更快速、且可分辨不同说话者等。

在过往,只有少数品牌厂商掌握进阶级别(即具有区分说话人等功能)的语音 - 文本转换技术。但大模型原理之下,越来越多品牌尤其是音频产品品牌都接入了这类技术,在耳机、录音笔等音频产品上配备专业语音文字转换的产品也越来越丰富。

讯飞专注办公场景已久,是在办公、效率领域表现最好的品牌之一。讯飞旗舰产品 iFLYBUDS Nano+ 以「随时随地,高效开会」为主题,将重点放在了会议办公场景,支持通话录音、音视频录音、现场录音三种功能,并可同时进行转写转译,其中音视频录音转写转译可实现将音视频里的声音实时转成文字。

内容

音乐、播客等音频内容,是用户使用音频产品的主要目的,也是广义音频行业的一部份。AI 革命之下,平台将能更精准把握用户便好,Sora 等生成式 AI 音频工具也将让音频内容平台带入「AIGC 时代」。

音乐推荐算法更精准

在音频内容层面,AI 接入的最能感知的显著影响,就在于各类推荐算法的完善。大规模用户数据积累、数据发掘深入之下,各类音乐内容平台对用户个体偏好的分析更为精确,推荐算法更为精准。例如,平台不仅可根据用户已经听过的内容作标签式的音乐推荐,也会加入聆听时间、位置场景等因素的考量,区分出「驾驶时听的歌」「放空时听的歌」「工作学习时听的歌」等。

用户层面,音乐 App 平台的「每日推荐」「猜你喜欢」等由算法推荐的内容会更符合喜好、命中便好;平台与行业层面,更精确的推荐则将增加用户在音乐平台中的活跃度,也间接提高用户使用音频产品的时间。

QQ 音乐音频技术总监闫震海此前接受访问时说到,QQ 音乐对用户场景的分类更加多样且准确,可以更加有针对性的为用户推荐合适的歌曲,同时搭配适合特定场景的音效渲染,为用户推荐的效果会更为用户所喜欢。

另一方面,以推荐算法为核心技术之一的字节跳动旗下音乐平台 App 汽水音乐(Resso)则以「推荐」作为核心功能,一反国内传统音乐流媒体的产品逻辑,采用滑动式单曲推荐形式,作出了音乐 App 的新尝试。

AIGC 改变音频创作,文本转音乐等技术改变工作流

生成式 AI 已经改变了文字与绘画领域,对于音频和视频领域的变革即将到来。2023 - 2024 年,已经有多款可生成高质量音频的生成式 AI 工具出现,用户可借助这些工具,输入歌词、音乐类别和曲风等提示词(Prompt),就能得到一个 AIGC 曲子。

我们能预见,生成式 AI 将变革音频创作。目前,文字工作者、绘画人士已经在日常工作流中全面使用 AI 工作辅助,相信在不久的将来,音频创作者也会广泛拥抱 AI,将 AI 工具融入工作流之中,为创作加速,拓宽音频艺术的空间。

音乐创作 AI —— Suno 在 2024 年问世,能够根据简单的提示,创作出包含歌词、人声和配器等所有元素的完整歌曲,被视作「音乐界的 ChatGPT」。和 GPT 等文本生成式 AI 类似,Suno 的技术逻辑是大模型的分析与机器学习训练,其技术实现相当复杂和先进。

另一方面,Google 的 Deepmind 团队也紧随其后推出音乐 AI Udio,其同样具有音乐生成能力,涵盖了流行音乐、说唱、摇滚、金属等各种风格,且支持多种语言。目前 Udio 已上线。

其他

近年以来,音频产品在功能上有「拓宽边界」的趋势。AI 助力之下,这一趋势将有所加速。

音频消费产品的非音频功能受益于 AI,例如智能姿态识别、健康功能等

最后,AI 的发展应用也在更广泛的层面推动了音频消费产品的演进,为音频类产品的功能跨界提供辅助。

例如,一些搭载健康功能的耳机可以引入 AI 模型算法来辅助耳机的「心率 / 体温监测分析」、「智能姿态识别」等非音频功能,带来更好的分析效果;佩戴检测、自动区分佩戴方向等功能体验也是 AI 发力的空间。

华为 FreeBuds Pro 2 + 搭载了光学心率传感器和加速度传感器,可以同时采集心率和运动数据,结合手机端的 AI 数据分析,可为用户提供更全面的健康数据。此外,耳机还支持语音播报,例如在你进行运动时,如果过程中心率过高或过低都会有预警提醒,及时在你的耳边提醒,避免超负荷运动。

我爱音频网总结

AI 是新质生产力的全新引擎,AI 浪潮正席卷千行百业。我们方才刚见到「AI 时代」的曙光,就已经看到它已在正以不可阻挡之势变革着各行各业,也正从内容创作、生产流程、用户体验的多个维度,全方位重塑音频行业的面貌。

在 AI 愈来愈成为全链条中各环节关键驱动力的当下,把握行业脉搏尤为重要。未来,我爱音频网将继续关注音频行业动向,与行业一同见证变革与繁荣进步。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 半导体 芯片 音频产品 chatbot
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论