小米AI语音新框架：人人都能当声音导演

语音合成大家都不陌生，这两年市面上各种 AI 配音也层出不穷。

but，真在实际场景应用起来，还是会面临一箩筐问题——

举个栗子，想把小说做成有声书，但配出来的声音怎么听都感觉很生硬，而且口语表达效果也是个大问题。

此外，像播客这种配音场景，光配音环节就要折腾大半天，合成音频时也会面临各种合成的 bug！！！

也正因如此，面对传统语音合成的种种局限问题，小米大模型应用团队提出了——

Midasheng-audio-generate 与 Xiaomi Any2Speech 两大真实世界音频生成框架。

在模型能力上，两个模型分别支持「沉浸式音频生成」与「无边界长音频合成」。

通过大模型对角色设定、情绪变化以及整体声学场景的统一建模，让 AI 能够真正理解一段自然场景下的音频应该如何呈现。

在这样的生成方式下，声音不仅能够被合成还原出来，还能一体式构建出来～

这下好了，人人都能当声音导演的时代来了？？

Xiaomi Any2Speech：让每个人成为声音导演

传统 TTS 技术的评判标准一直很直白，那就是模型能不能念好一句话，把每个字读清楚。

而 Xiaomi Any2Speech 的核心突破，就是让 AI 不再只懂念字儿，而是学会理解声学空间与叙事逻辑，真正拥有了导戏的能力。

具体来说，在播客、相声、辩论、脱口秀等多种语音对话节目生成中，Xiaomi Any2Speech 都表现出了极高的可用性和真实性：

多人语音互动：支持多人分角色对话，播客、相声，甚至是武侠广播剧中刀光剑影的沉浸式多人对白，都能完美呈现。

声学场景的营造：以往生成的声音总像在空荡的录音棚里，和背景音是割裂的，而模型把背景环境和人声做了统一建模，声音自带场景感，不再是孤立的语音输出。

支持长文输入：模型支持多种格式的文档输入，单次推理可以生成最长约 10 分钟的连贯音频。

情绪递进故事性强：模型能理解剧本结构，让 AI 的表演像真正的演员一样有起有伏。

话不多说，直接来听听下面这段由模型生成的罗永浩 × 豆包辩论的 AI 效果：

模型能懂声音、会叙事，说话还自然流畅，核心靠的当然是一套全新的技术创新能力：

首先，就是能让模型理解声学空间与叙事逻辑的「Global-Sentence-Token（GST）」标注体系。

具体来说，Global 层级定全局，把控场景定位、说话人画像、整体的情绪走向；而 Sentence 层级管局部，调整每一句话的语气、语速、表达意图，适配当下的背景状态。

Token 层级抠细节，精准处理重音、多音字，甚至是笑声、呼吸声这类贴近真人表达的小细节。

三层配合，让 AI 对声音的理解更到位～

其次，是模型使用的 Labeling over Filtering 的技术思路，可以说也是反着传统 TTS 的玩法来的。

大家都知道以往做 TTS 训练时，其实都会刻意过滤掉嘈杂数据，比如多人重叠的声音、录音质量参差的素材，只留干净的音频做训练，觉得这些杂数据会影响效果。

而 Labeling over Filtering 的思路，则选择保留传统 TTS 摒弃的嘈杂数据——

通过 GST 标注体系将其转化为训练燃料，使模型学会从人声背景中泛化纯音效（如磁带损坏感、旧广播感）。

这样的好处很直接，那就是模型自己能学会从复杂的人声背景中提炼、泛化出各种特色声学效果～

不仅如此，在 CoT 思维链合成方面，模型还基于全局指令进行深度「推理」，理解场景氛围与情绪走向，再生成音频，这样一来比传统 TTS 更贴合场景、更有感染力。

在具体的架构设计上，Xiaomi Any2Speech 采用了双路拆分 + 维度 Dropout 的思路。

把传统 TTS 理解与发声合并的黑盒过程，拆解成了可追溯、可干预的步骤，让创作过程的可控性大幅提升。

Instruct 路：用户硬约束（场景元数据、说话人身份、声学环境评分）直接输入。

Think 路：模型自主推理表达规划——全局氛围与情绪弧线、逐句语气 / 语调 / 语速 / 音量 / 意图，以及音素级发音细节；训练中随机丢弃部分标注维度（Dimension Dropout），被丢弃维度不补全，使模型在部分指定场景下仍能高质量合成。

双阶段生成：先逐句规划表达蓝图，再以蓝图为指导生成音频，将传统 TTS " 理解与发声合并 " 的黑盒过程拆解为可追溯、可干预的两步。

也正因如此，Xiaomi Any2Speech 在实际落地中，不管是多人分角色对话的塑造、背景环境与人声的融合建模，还是长文本的连贯处理、剧本结构的理解，都展现出了远超传统 TTS 的能力。

让音频创作不再是专业人士的专属，普通人也能轻松上手做出高质量的声音内容。

Midasheng-audio-generate：声画同频的沉浸式音频世界

相较于 Xiaomi Any2Speech 的长音频合成能力，Midasheng-audio-generate 的模型则更强调——

用一句话实现包括人声、场景音效、音乐等的「全场景声音」重建还原。

具体来说，模型在音频合成上的亮点主要包括以下几个方面：

一句话造世界：仅需自然语言描述，就能生成包含人声、音乐、环境音的完整音频，无需后期拼接。

符合场景特点的语音生成：比如用户要合成火车上的对话，或森林中的对话，模型会生成适合场景混响的语音。

跨平台零门槛使用：Hugging Face、OpenClaw Skill、Web Demo 全平台开放，无需本地部署，直接生成长音频。

再来听听下面这个「黑色电影侦探在雨中的独白」合成效果如何：

能实现真实沉浸感的声音效果，背后靠的则是 Midasheng tokenizer 技术在支持。

具体来说，基于 Midasheng tokenizer，模型用 Flow Matching 作为主体框架来接收文本指令，驱动背后的全能编码器，直接合成包含语音、音乐、音效的复杂混合音频。

结构化多视角标注：传统方法依赖单一文本提示，而 Midasheng-audio-generate 将音频场景解耦为五个独立标注字段（整体描述、说话人风格、音效、音乐、语音转写），实现了对语音、音乐、音效的细粒度分层控制。

统一的非 VAE 生成：摒弃了主流方法中会损失语义信息的 VAE 声学分词器，采用统一的语义 - 声学表示（Midasheng tokenizer）进行建模，突破了生成质量的天花板。

智能体兼容的架构：其结构化标注格式天然兼容大型语言模型与智能体工作流，能够自动从高层场景描述中填充各标注字段，使得从单一描述生成复杂、连贯的音频场景成为可能。

OMT

在一些官方展示和实测的效果 case 进行分析中，还可以看到两个模型所提出的新语音范式，也确实极大改变了语音合成的应用场景与使用思路。

最直观的例子就是在脱口秀场景中，深夜开放麦风格的演出里，起哄声与包袱抖出后观众的共鸣笑声能自然呼应。

再比如在武侠广播剧场景中，江湖夜雨、刀光剑影的氛围配合人物对白与环境音效，营造出沉浸式的武侠世界。

在原始输入中，不用像传统 TTS 一样标注明确的观众笑点、起哄声或者鼓掌声，模型均可以根据上下文语意自然推断，形成呼应，说明模型「场景语义」有深刻的建模理解。

模型通过语速、音量、混响的协同变化，可直接塑造角色压迫感与空间紧张感，省去传统配音中单独配乐的环节。

同时，语气词、拖音、断句节奏也不再是合成瑕疵，而是传递人物气质的重要介质，借由声音侧写，呈现与内容高度契合的人物人格。

而所有场景共享同一个自然语言 instruction 接口，一句话描述你想要的效果，无需切换模型或 pipeline 就能实现。

当模型能够基于语义自动生成情绪、环境与互动反馈，声音合成也就逐渐成为内容生产的一部分，甚至是内容本身。

可能未来的语音生成，不再需要复杂的多轨配音流程了，也不再依赖精细的人工标注，而是通过自然语言直接驱动完整的声音场景生成。

参考链接：

【Xiaomi Any2Speech 相关链接】

[ 1 ] 项目地址：https://Any2Speech.github.io/

[ 2 ] Openclaw 技能：https://clawhub.ai/whiteshirt0429/xiaomi-Xiaomi Any2Speech-beyondtts

【Midasheng-audio-generate 相关链接】

[ 1 ] Demo：https://nieeim.github.io/Dasheng-AudioGen-Web/

[ 2 ] Openclaw 技能：https://clawhub.ai/jimbozhang/midasheng-audio-generate

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签