不儿，这谁还能看出是AI演的视频啊

这一次，我真的分不清视频到底是不是 AI 生成的了。

来，咱们先来看一下这段演技飙升的视频片段：

Prompt：女子泣不成声，说台词：" 江辰……你一定要活着回来，好吗？……答应我 "。女子边说话边将右手抬起抚摸男子的脸。背景音乐伤感。影视级。

这台词、这演技、这眼神、这口型，不说是 AI 生成的，一般人绝对会以为是哪个电影里的片段。

但重点还不是效果的逼真——

因为这 10s 的片段，人物对白配音、视频背景音乐和音效，统统都是通过上面的 Prompt一锅出的。

这就是刚刚火山引擎在 FORCE 原动力大会上推出的最新豆包视频生成模型 Seedance 1.5 Pro。

主打的就是音画高精同步，一镜入戏。

就这个功能一出，打造一个有趣好玩的小短片，那真是分分钟的事情了。

例如我们以这位 AI 女主角为原型：

然后就可以用 Seedance 1.5 Pro 搞一个 " 川剧 " ——《至辣园》：

从这两个实测案例中，我们不难看出，这次豆包视频生成模型 Seedance 1.5 Pro 整体亮点可以总结为：

音画高精度同步：不论是背景音乐、音效还是人物对话，都能按照剧情发展保持高度一致。

支持多人多方言：原生支持如四川话、粤语、上海话、台湾腔等多种方言，并且精准捕捉方言独特的韵律和情感张力。

影视级效果：不论是视觉、叙事张力、镜头语言，都已经达到了真假难辨的程度。

语义理解更强：对于镜头叙事的理解更加准确，有利于专业级内容的创作；同时，抽卡率也更低了。

目前，Seedance 1.5 Pro 已经上线即梦 AI和豆包 APP和火山方舟体验中心，大家都可以去体验哦 ~

企业用户自 12 月 23 日起，也可以在火山引擎使用该模型 API。

那么接下来，我们就通过进一步、多角度的实测，来考验一下 Seedance 1.5 Pro 的水平。

不仅好看，还挺好用

AI 视频生成到底够不够真，其实最主要需要关注的就是音画会不会出现 bug、够不够一致性，运镜是否够专业，以及涉及到方言等内容时，是否能够精准表达等。

因此，接下来的进一步实测，我们就主要围绕这几个维度来展开。

音画够同步：不会穿帮的那种

我们以即梦为例，Seedance 1.5 Pro 生成视频的操作方式是首尾帧的方式

在这个测试中，我们先上传这张图片：

然后附上这么一句 Prompt：

缓缓拉远，镜头带轻微震颤，指尖微蜷（隐带杀势），衣服随风飘动。表情眼睑半垂又骤抬。随后，急速推近面部特写，嘴角扯出极淡的冷笑，压迫感满满，并且冰冷蔑视地说话：" 凭你也敢挑衅我的权威！"

来看下生成的效果：

不难看出，Seedance 1.5 Pro 完全 get 到了 Prompt 要表达的核心要素，并且音画同步得非常精准，是有点电影里东方不败的气场了。

同样的方法，我们再来一句这样的 Prompt：

黑客帝国风格的发布会。纯黑背景，只有一束顶光。穿着黑色高领衫的科技狂人，手里把玩着一枚小小的 AI Pin，他举起 AI pin，用冷静且极具煽动力的男声："For the last decade, our smartest devices have demanded our eyes. …… " 缓慢推镜头（Dolly In），直到 AI Pin 占据整个画面。

周润发百万级运镜也能复刻

AI 视频生成的另一个要素便是运镜的效果了。

在这次实测中，我们就来实测一下 Seedance 1.5 Pro 是否可以复刻前不久周润发在 MAMA 颁奖典礼中的名场面——百万级运镜。

我们的首帧和尾帧分别是：

复刻周润发百万运镜的 Prompt 是这样的：

西装男子从舞台深处一直往前走，镜头从远推近到人物的面部，镜头环绕切到人物背面，再慢慢往远处推。

嗯，是有那个 feel 了 ~

多个人、多语言，统统都能 hold 住

正如我们刚才提到的，Seedance 1.5 Pro 现在可以支持多个人、多个方言 " 一锅出 "，现在你需要做的就是告诉她" 谁，说了什么 "。

例如下面的 Prompt：

画面中的 3 个角色对话的情节：首先右边熊猫用憨厚的四川话说：" 我来自中国四川。" 然后左边的小男孩用西班牙语说："Yo soy de Espa ñ a"。接着右边的熊猫用憨厚的四川话问：" 为什么我们说着不一样的语言，却能对话呢？" 最后中间的小女孩用可爱、开心的音色，微笑着说英语："Because the AI world is full of magic!" 女孩说完后，停顿一下，3 个角色相互看着彼此，开心的笑了起来。全程缓慢的环绕运镜。奇幻的背景音乐。

从上述多个深度实测来看，Seedance 1.5 Pro 确实是做到了音画精准同步、影视级镜头和理解、支持多人对话和方言。

总体体验下来，方便、快，或许就是最直接的感受了，只要不是过于复杂的场景，基本都是 " 一条过 "。

不过目前 Seedance 1.5 Pro 还不支持参考图生成的方式，不然在操作上会更加灵活。

但除此之外，火山引擎总裁谭待今天在现场还剧透了一个即将推出的新功能——Draft 样片。

这个功能要解决的还是 AI 视频生成中的一个老大难的问题：抽卡。

简单来说，就是在真正出成片之前，你可以先生成一个低分辨率的草稿版视频，用来快速试效果、调方向；同时还能把画面里的关键元素先锁住，确保和最终成片在内容上高度一致。

这样每一次修改，反馈都更明确，也更可控，基本能做到 " 你看到的，就是最后会得到的 "。

按照官方给出的数据，Draft 样片能把整体创作效率提升约 65%，同时减少 60% 无效创作成本。

技术底牌也公开了

在 AI 视频生成领域，过去我们常说声画两张皮，也就是视频归视频，音频归音频，后期强行缝合。

但 Seedance 1.5 pro 之所以能做到一镜入戏，核心在于它把视觉和听觉从底层逻辑上进行了彻底的同构。

从技术角度来看，主要包含四个方面的工作创新。

△Seedance 1.5 pro 训推框架图

首先是原生音视频联合生成架构。

不同于传统的串联式架构（先视频后音频），Seedance 1.5 pro 采用了一套基于 MMDiT（Multi-Modal Diffusion Transformer）的原生联合生成框架。

它建立了一个双分支的 DiT 架构，通过深度跨模态信息交互机制，让视觉流和听觉流在潜在空间（Latent Space）里实时通信。

这意味着，当模型生成角色说话的口型时，它同时就在计算对应的音频波形。这种 " 双向奔赴 " 的架构，从底层消灭了音画不同步的违和感。

其次是高质量音视频数据框架。

火山方舟团队设计了一个极其复杂的多阶段数据 Pipeline。他们不仅筛选了数以亿计的高清视频，还特别注重音视频的一致性配比。

通过自动化标注系统，为视频注入了丰富的视觉描述和匹配的音频语义信息。这套框架不仅能识别 " 一个男人在说话 "，还能精确标注出 " 四川话、憨厚音色、带有环境回声 " 等极具细节的特征，为模型打下了深厚的数据底子。

还有一套精细化的后训练优化流程。

为了让生成的视频更有灵性，团队在预训练之外，引入了针对音视频场景定制的 RLHF（人类反馈强化学习）算法。通过建立多维度的奖励模型（Reward Model），从视觉美感、运动连贯性、音频保真度以及最重要的音画匹配度进行全方位调优。

一言蔽之，就是反复磨练它在微表情、运镜张力以及声音情感表达上的处理能力。

最后就是高效推理加速技术。

视频生成一向是巨烧算力的任务，但 Seedance 1.5 pro 在落地体验上玩了一把大的。

通过多阶段蒸馏技术和高效推理加速框架，团队成功将推理速度提升了 10 倍以上。

这意味着专业创作者在即梦或豆包上点击生成，不再需要漫长的进度条折磨，真正实现了所见即所得。

从实验和评测结果上来看，也是印证了上述四项技术创新的正确性。

在针对视频与音频能力的综合评测中，Seedance 1.5 pro 在审美（Aesthetics）、运动质量（Motion）以及音画对齐（Alignment）等核心指标上均处于行业领先地位。

特别是在挑战性极高的多语言对白和方言口型匹配任务中，其表现显著优于目前的开源及闭源主流模型。

AI 视频生成，到了真可以上岗时刻

除了 Seedance 1.5 pro 之外，国内外大模型玩家近期也是密集交卷，视频生成赛道早已进入周更模式。

但观察这些密集发布的新作，不难发现一个共同趋势：它们不再追求单纯的像素级高清，而是在向 " 够好用 " 和 " 够逼真 " 这两个实用维度急速进化。

豆包视频生成模型 Seedance 1.5 pro 正是这一趋势的集大成者。

它不仅解决了演技问题（更细腻的表情和动作），更通过原生的音画同步，解决了台词和情绪的融合问题。

这种从单一模态向全模态创作的跨越，让 AI 视频真正具备了低成本制作短剧、广告片甚至辅助影视创作的实战能力。

或许在不久的将来，我们不需要寻找昂贵的配音演员，不需要复杂的后期对口型，甚至连方言的韵律和环境音的质感，AI 都能一次性给到。

AI 视频直接上岗时刻，已至。

火山方舟体验中心地址：

https://exp.volcengine.com/ark/vision?launch=seedance

Seedance 1.5 Pro 论文地址：

https://arxiv.org/pdf/2512.13507

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签