
AI 应用风向标(公众号:ZhidxcomAI)
作者|江宇
编辑|漠影
智东西 12 月 3 日报道,近日,可灵 AI 视频上线了全新的 O1 模型,把参考生视频、文生视频、图生视频、视频编辑、动作迁移等能力收进了同一个统一多模态模型里。
我们尝试的第一件事,就是拿它来拍一支 " 疯狂动物城番外 "。
整套流程从 " 在可灵里重建尼克和朱迪 ",到搭建警局场景、编辑视频、最后让朱迪跳了一段像素风网络神曲,中间遇到的每一个细节问题,都还很典型的:既能看到统一多模态的便利,也能看到现在 AI 视频在精细编辑上的边界。
不妨先来看看最终成片,具体过程我们稍后拆解。
一、在可灵 O1 里重建尼克和朱迪
进入可灵 AI 主页,左侧工具栏最上方就是可灵 O1 的新模式,在同一个对话框里就可以选择图片生成或视频生成。在生成区的下方,有一个 " 参考 " 模块,分为 " 图片 " 和 " 主体 " 两种方式。

同时,主体既可以调用主体库,也支持自建,而官方主体库的覆盖范围比我预想得要丰富。

人物栏里,直接给了鲁迅和林黛玉的影视形象,动物则有这两年在网上很火的安卓猫、水豚、香蕉猫等。继续翻,主体还延伸到了道具、服饰、场景和特效,基本把一支视频里会需要用到的主要元素,都整理成了可复用的素材。
我这次的主角不是官方主体,而是自建的尼克和朱迪。在 " 我的主体 " 里,我上传了两位的图片,分别新建了两个主体。
可灵 O1 有一个专门用来保证角色一致性的设计:主体必须由多张图片共同构建。
创建时,系统会要求用户至少提供一张主参考图和一张其他视角图,希望用户把角色的正侧面、近景远景都喂进去。我给尼克上传了 4 张图,其中 1 张是主参考,其余是不同视角。

标签部分我选择了 " 动物 ",然后在主体描述栏点了一下 " 智能描述 ",系统自动生成了一小段关于 " 狐尼克 " 的文字说明,补充了毛色、服饰等细节。

随后我用同样的方式给朱迪建了一个主体。

这一步做完之后,等于是在可灵 O1 里 " 重建 " 了影视版狐尼克和朱迪,后面无论是图还是视频,都可以直接调用这两个主体,保证角色的基础风格统一。
二、从图片到开场镜头,搭出疯狂动物城夜班警局
有了主体之后,我先用图片 O1 模式试了一轮静态图,让尼克和朱迪先 " 落地 " 到典型场景里,我选的场景是动物城的警局办公室。

警局的第一张效果非常理想:尼克和朱迪的角色一致性很好,比例、服饰和神态都在预期之内,场景画风也统一在动画电影版的 " 疯狂动物城 " 世界观之中。

问题出在第二张图上。在这张图里,警局背景里出现了很多 " 长得像朱迪的警员 ",背景人物的脸和朱迪近似度过高,画面里出现了一排几乎同款的兔子脸,视觉上有点诡异。
此外,尼克后方的一张办公桌上,两台电脑紧贴摆放在一起,也不大符合日常使用场景,看起来像 " 复制粘贴 " 出来的。

我们尝试使用局部重绘功能,把背景里部分警官替换成其他小动物形象,希望能打破 " 同脸军团 " 的违和感。

局部重绘后的效果
但在这种细节程度的编辑下,模型还是很难精准地对某一个角色做局部替换。
在静态图大致跑通之后,我们决定用第一张警局图片作为故事开场的基调:先用 O1 生成一个夜晚的疯狂动物城城市远景镜头,再拉近到警局门口,最后落到尼克和朱迪同框出现,组成一个完整的视频开场片段。
这条视频在整体故事感上完成度很高:夜景街道、警局门口、内部办公室和主角同框的逻辑是对得上的。但细节层面,依然能看到一些 " 不对劲 " 的地方。比如部分警员的电脑是面朝观众摆放,而不是面朝警员自己。
另外,在警局背景中,有个别角色的脸直接变成了一团 " 乱码 ",轮廓在,但五官细节糊成了一块。
三、从画面到声音,用 " 智能音效 " 为动物城配上 BGM
在视频生成完成后,可灵 O1 的进度条下方会出现两个附加功能,一个是对口型,一个是音效。

对口型功能有一个前提条件:需要画面中存在稳定、持续可见的人脸,而且这个人脸要始终保持在画幅之内。
这个设定更适合真人、写实风格的片子,而我们这支疯狂动物城的风格偏动画和多角色,所以这次没有体验对口型这一功能。
音效功能则是这次体验里一个比较 " 惊喜 " 的点。我们只是在视频生成完成后点击了 " 音效 " 按钮,就进入了一个新的界面。

这一块的交互逻辑有点像 "AI 版音效素材库和智能拟音师 ":一方面你可以直接在多种推荐风格中选择自己喜欢的音效基调;另一方面,可灵会先分析视频内容,自动生成一段 " 音效创意描述 " 的指令。

智能音效的优势,则在于它能和画面产生一些 " 预判式的配合 "。
比如在这条警局开场视频里,有一个明显的开门动作,音效会主动把金属门被推开的声音放进去,和画面同步,加上远处的环境声,整体的空间感比单纯的 BGM 要完整得多。
从这个阶段开始,画面和声音才真正拼成了一段 " 完整的开场镜头 "。
四、用 " 嘴改视频 ",在警局门口加一块胡萝卜饮料广告牌
有了一个可用的开场画面之后,我开始尝试 O1" 擅长的编辑操作 ",用自然语言去调镜头、改细节。
先是增加元素。我们给模型下的指令是:在疯狂动物城警局门口添加一块电子广告牌,播放胡萝卜饮料的广告。

视频生成后,广告牌本身融入得比较自然,亮度、位置和整体画风都对得上,确实像警局门口墙面的一部分。
但如果只看画面,很难一下子认出这是 " 胡萝卜饮料 ",胡萝卜元素本身的视觉特征表现得不够清晰,更像是一块普通饮料广告灯牌。
然后是删改元素。我在同一段警局画面里,尝试让模型 " 只保留尼克和朱迪,删掉其他路人和警员 "。最终的结果是:确实删掉了大部分背景角色,但系统还是保留了一位靠近主角团最近的警员。
可灵 O1 目前还没有掌握逐帧、逐人可控的能力。
再往下,我们尝试对镜头本身做一些调整。
街景部分,我们把镜头拉得更远一些,变成可以俯瞰整个动物城的全景,远处有不同种类的小动物在城市里活动。警局内部,则要求更多一些近景和特写,把尼克、朱迪和办公区域的细节交代得更清楚。
在这些指令下,O1 可以按照 " 远景、近景 " 的逻辑重新生成镜头。同时,我们也会发现一个明显的问题:镜头之间的切换节奏和元素添加偏 " 死板 ",镜头并不流畅,也没有初版视频的活灵活现。
五、让朱迪跳舞,再把她变成像素游戏角色
在场景和细节编辑之后,我们开始尝试可灵 O1 的动作参考能力:用一段网络舞蹈视频,驱动尼克和朱迪跳舞。
这次我们选了一段很火的网络舞蹈,把它作为动作参考,希望让尼克和朱迪两人同步跳同一支舞。
实际体验下来,目前 O1 在多主体同步动作上还没有完全放开:经过几轮调参和不同指令尝试,我们始终只能稳定地生成 " 朱迪独舞 " 的版本,没办法让尼克和朱迪两个人在同一画面中,完成整支舞蹈。
但在单主体的表现上,这一条舞蹈的效果可以用 " 几乎完美 " 来形容:动作复刻的节奏、幅度和重心变化都高度贴合参考视频,朱迪的形象在大幅运动中也保持了很好的稳定性,没有出现明显的脸部崩坏或身体扭曲,耳朵、尾巴这类拟人动物的特征在动作里也被自然保留了下来。
在这个基础上,我们又给这支舞蹈上了一道 " 风格滤镜 ",把整段视频重绘成像素游戏风。
这一次,可灵 O1 也比较顺利地完成了任务。
如果把前面的警局夜景、办公室开场和这支像素风舞蹈拼在一起,就已经是一支很完整的 " 疯狂动物城番外小短片 " 了。
写在最后:
这次围绕疯狂动物城的完整体验下来,我对可灵 O1 的直观感受是:它把原来散落在不同工具里的事情,组合成了一条相对顺畅的工作流。
从主页点进 O1 开始,建主体、调图、文生视频、参考视频、用嘴改画面、加音效、做动作迁移、改风格,一路下来基本都在同一个对话界面里完成。
对创作者来说,这种 " 一应俱全 " 的状态,意味着试错成本被显著压低了,你可以沿着同一个故事线往前推,不用频繁切换不同产品和插件。
但同样明显的是,只要讲到具体镜头和具体元素,可灵 O1 目前还没到 " 想什么就一定能还原什么 " 的程度。在这些细节上,它更多是在给出一个可用的草稿,而不是直接替代专业后期。
朝这个方向继续迭代下去,当角色一致性、局部编辑和镜头逻辑再继续精进,或许有望实现:从一句话到一支能直接上线的短片。


登录后才可以发布评论哦
打开小程序可以发布评论哦