我用可灵O1，做了一支疯狂动物城番外

AI 应用风向标（公众号：ZhidxcomAI）

作者｜江宇

编辑｜漠影

智东西 12 月 3 日报道，近日，可灵 AI 视频上线了全新的 O1 模型，把参考生视频、文生视频、图生视频、视频编辑、动作迁移等能力收进了同一个统一多模态模型里。

我们尝试的第一件事，就是拿它来拍一支 " 疯狂动物城番外 "。

整套流程从 " 在可灵里重建尼克和朱迪 "，到搭建警局场景、编辑视频、最后让朱迪跳了一段像素风网络神曲，中间遇到的每一个细节问题，都还很典型的：既能看到统一多模态的便利，也能看到现在 AI 视频在精细编辑上的边界。

不妨先来看看最终成片，具体过程我们稍后拆解。

一、在可灵 O1 里重建尼克和朱迪

进入可灵 AI 主页，左侧工具栏最上方就是可灵 O1 的新模式，在同一个对话框里就可以选择图片生成或视频生成。在生成区的下方，有一个 " 参考 " 模块，分为 " 图片 " 和 " 主体 " 两种方式。

同时，主体既可以调用主体库，也支持自建，而官方主体库的覆盖范围比我预想得要丰富。

人物栏里，直接给了鲁迅和林黛玉的影视形象，动物则有这两年在网上很火的安卓猫、水豚、香蕉猫等。继续翻，主体还延伸到了道具、服饰、场景和特效，基本把一支视频里会需要用到的主要元素，都整理成了可复用的素材。

我这次的主角不是官方主体，而是自建的尼克和朱迪。在 " 我的主体 " 里，我上传了两位的图片，分别新建了两个主体。

可灵 O1 有一个专门用来保证角色一致性的设计：主体必须由多张图片共同构建。

创建时，系统会要求用户至少提供一张主参考图和一张其他视角图，希望用户把角色的正侧面、近景远景都喂进去。我给尼克上传了 4 张图，其中 1 张是主参考，其余是不同视角。

标签部分我选择了 " 动物 "，然后在主体描述栏点了一下 " 智能描述 "，系统自动生成了一小段关于 " 狐尼克 " 的文字说明，补充了毛色、服饰等细节。

随后我用同样的方式给朱迪建了一个主体。

这一步做完之后，等于是在可灵 O1 里 " 重建 " 了影视版狐尼克和朱迪，后面无论是图还是视频，都可以直接调用这两个主体，保证角色的基础风格统一。

二、从图片到开场镜头，搭出疯狂动物城夜班警局

有了主体之后，我先用图片 O1 模式试了一轮静态图，让尼克和朱迪先 " 落地 " 到典型场景里，我选的场景是动物城的警局办公室。

警局的第一张效果非常理想：尼克和朱迪的角色一致性很好，比例、服饰和神态都在预期之内，场景画风也统一在动画电影版的 " 疯狂动物城 " 世界观之中。

问题出在第二张图上。在这张图里，警局背景里出现了很多 " 长得像朱迪的警员 "，背景人物的脸和朱迪近似度过高，画面里出现了一排几乎同款的兔子脸，视觉上有点诡异。

此外，尼克后方的一张办公桌上，两台电脑紧贴摆放在一起，也不大符合日常使用场景，看起来像 " 复制粘贴 " 出来的。

我们尝试使用局部重绘功能，把背景里部分警官替换成其他小动物形象，希望能打破 " 同脸军团 " 的违和感。

局部重绘后的效果

但在这种细节程度的编辑下，模型还是很难精准地对某一个角色做局部替换。

在静态图大致跑通之后，我们决定用第一张警局图片作为故事开场的基调：先用 O1 生成一个夜晚的疯狂动物城城市远景镜头，再拉近到警局门口，最后落到尼克和朱迪同框出现，组成一个完整的视频开场片段。

这条视频在整体故事感上完成度很高：夜景街道、警局门口、内部办公室和主角同框的逻辑是对得上的。但细节层面，依然能看到一些 " 不对劲 " 的地方。比如部分警员的电脑是面朝观众摆放，而不是面朝警员自己。

另外，在警局背景中，有个别角色的脸直接变成了一团 " 乱码 "，轮廓在，但五官细节糊成了一块。

三、从画面到声音，用 " 智能音效 " 为动物城配上 BGM

在视频生成完成后，可灵 O1 的进度条下方会出现两个附加功能，一个是对口型，一个是音效。

对口型功能有一个前提条件：需要画面中存在稳定、持续可见的人脸，而且这个人脸要始终保持在画幅之内。

这个设定更适合真人、写实风格的片子，而我们这支疯狂动物城的风格偏动画和多角色，所以这次没有体验对口型这一功能。

音效功能则是这次体验里一个比较 " 惊喜 " 的点。我们只是在视频生成完成后点击了 " 音效 " 按钮，就进入了一个新的界面。

这一块的交互逻辑有点像 "AI 版音效素材库和智能拟音师 "：一方面你可以直接在多种推荐风格中选择自己喜欢的音效基调；另一方面，可灵会先分析视频内容，自动生成一段 " 音效创意描述 " 的指令。

智能音效的优势，则在于它能和画面产生一些 " 预判式的配合 "。

比如在这条警局开场视频里，有一个明显的开门动作，音效会主动把金属门被推开的声音放进去，和画面同步，加上远处的环境声，整体的空间感比单纯的 BGM 要完整得多。

从这个阶段开始，画面和声音才真正拼成了一段 " 完整的开场镜头 "。

四、用 " 嘴改视频 "，在警局门口加一块胡萝卜饮料广告牌

有了一个可用的开场画面之后，我开始尝试 O1" 擅长的编辑操作 "，用自然语言去调镜头、改细节。

先是增加元素。我们给模型下的指令是：在疯狂动物城警局门口添加一块电子广告牌，播放胡萝卜饮料的广告。

视频生成后，广告牌本身融入得比较自然，亮度、位置和整体画风都对得上，确实像警局门口墙面的一部分。

但如果只看画面，很难一下子认出这是 " 胡萝卜饮料 "，胡萝卜元素本身的视觉特征表现得不够清晰，更像是一块普通饮料广告灯牌。

然后是删改元素。我在同一段警局画面里，尝试让模型 " 只保留尼克和朱迪，删掉其他路人和警员 "。最终的结果是：确实删掉了大部分背景角色，但系统还是保留了一位靠近主角团最近的警员。

可灵 O1 目前还没有掌握逐帧、逐人可控的能力。

再往下，我们尝试对镜头本身做一些调整。

街景部分，我们把镜头拉得更远一些，变成可以俯瞰整个动物城的全景，远处有不同种类的小动物在城市里活动。警局内部，则要求更多一些近景和特写，把尼克、朱迪和办公区域的细节交代得更清楚。

在这些指令下，O1 可以按照 " 远景、近景 " 的逻辑重新生成镜头。同时，我们也会发现一个明显的问题：镜头之间的切换节奏和元素添加偏 " 死板 "，镜头并不流畅，也没有初版视频的活灵活现。

五、让朱迪跳舞，再把她变成像素游戏角色

在场景和细节编辑之后，我们开始尝试可灵 O1 的动作参考能力：用一段网络舞蹈视频，驱动尼克和朱迪跳舞。

这次我们选了一段很火的网络舞蹈，把它作为动作参考，希望让尼克和朱迪两人同步跳同一支舞。

实际体验下来，目前 O1 在多主体同步动作上还没有完全放开：经过几轮调参和不同指令尝试，我们始终只能稳定地生成 " 朱迪独舞 " 的版本，没办法让尼克和朱迪两个人在同一画面中，完成整支舞蹈。

但在单主体的表现上，这一条舞蹈的效果可以用 " 几乎完美 " 来形容：动作复刻的节奏、幅度和重心变化都高度贴合参考视频，朱迪的形象在大幅运动中也保持了很好的稳定性，没有出现明显的脸部崩坏或身体扭曲，耳朵、尾巴这类拟人动物的特征在动作里也被自然保留了下来。

在这个基础上，我们又给这支舞蹈上了一道 " 风格滤镜 "，把整段视频重绘成像素游戏风。

这一次，可灵 O1 也比较顺利地完成了任务。

如果把前面的警局夜景、办公室开场和这支像素风舞蹈拼在一起，就已经是一支很完整的 " 疯狂动物城番外小短片 " 了。

写在最后：

这次围绕疯狂动物城的完整体验下来，我对可灵 O1 的直观感受是：它把原来散落在不同工具里的事情，组合成了一条相对顺畅的工作流。

从主页点进 O1 开始，建主体、调图、文生视频、参考视频、用嘴改画面、加音效、做动作迁移、改风格，一路下来基本都在同一个对话界面里完成。

对创作者来说，这种 " 一应俱全 " 的状态，意味着试错成本被显著压低了，你可以沿着同一个故事线往前推，不用频繁切换不同产品和插件。

但同样明显的是，只要讲到具体镜头和具体元素，可灵 O1 目前还没到 " 想什么就一定能还原什么 " 的程度。在这些细节上，它更多是在给出一个可用的草稿，而不是直接替代专业后期。

朝这个方向继续迭代下去，当角色一致性、局部编辑和镜头逻辑再继续精进，或许有望实现：从一句话到一支能直接上线的短片。

宙世代

一起剪

相关标签