视频大模型竞争升级，快手可灵AI的壁垒是什么？

快手最近发布了 2024 年第三季报：总营收同比增长 11.4% 至 311 亿，日活也到了 4 亿的一个里程碑。无论是用户数据还是营收利润数据，这都是一个稳字当头的财报。不过，相比单纯的财务数字，我最关心的是快手在 AI 大模型领域的动作。CEO 程一笑在业绩电话会中用非常大的篇幅介绍了可灵 AI 的最新进展：月活超 150 万，单月流水也超过了千万人民币。

在即将写这篇文章的时候，我点开了由可灵 AI 提供深度技术支持的国内首部 AIGC 原创奇幻微短剧《山海奇镜之劈波斩浪》，并在自己的手机上看了好几遍。

看完之后，我感到叹服，作为星芒短剧暑期档的精选剧集，《山海奇镜之劈波斩浪》在 5 集的篇幅里，利用可灵 AI 对奇幻的上古传说进行了一次美好的赛博复现。同时，其正片 5 集播放量超过 5200 万，全网话题曝光量超 4.3 亿，同时还登上全平台热搜 21 个。

我也不由的开始思考一个问题——就连视频生成（至少是技术层面）都被人类初步实现了，那么，作为这个星球上唯一的智慧物种的我们，发展的未来方向是什么？是更深层次的创意思考能力呢？抑或是掌握和 AI 协同创作，得到 " 力量倍增器 " 的能力呢？

但至少就可灵 AI 而言，我认为它能够给世界带来更多的美好，也给快手带来更强的商业竞争力，更有可能会改变视频制作行业的工作流程。

——导语

视频大模型，卷的是什么？

2024 年 11 月 20 日发布的快手季度财报中，视觉生成大模型可灵 AI 备受瞩目，在业绩发布当晚的电话会议中，也成为机构投资人最关心的几个话题之一。

为什么会这样？

还是要从全球大模型的角逐中找到认知。

事实上，从 Sora 问世到可灵 AI 出现的这个时间段里，视频大模型俨然有向军备竞赛发展的趋势。

可灵刚刚发布，初创企业 Luma 就不甘示弱，推出最新视频模型 Dream Machine，这款号称 " 造梦机器 " 的模型迅速面向公众开放测试。其官方放出的一系列样片水准相当之高，而网上也出现了不少网友使用 " 造梦机器 " 生成的视频，虽然没有达到官方样片的程度，但也有可圈可点的地方。

Runway 紧赶慢赶还是放出了酝酿了半年的全新版本 Gen-3 Alpha，确实也显出了不凡的底蕴。

接下来，视频生成赛道就爆火了，比如，阿里达摩院官宣了 " 寻光视频创作平台 "、字节宣布即梦 AI 开始探索 " 生成式影剧 "、美图 MOKI 盯上 AI 短片创作……

但是，和很多视频生成模型在发布时爆火，但随即就被发现各种 " 幼稚病 " 所不同。快手近期骄傲的宣布了一组数据——可灵 AI 已有超过 500 万用户，累计生成 5100 万个视频和超过 1.5 亿张图。

在 AI 应用落地的时代，只有这种实实在在的应用数据，才能说明一个模型的用户价值和真实水平。

那可灵的厉害之处是什么？

简单一句话就是——可灵 AI 不仅是当下少有的用户真实可用的视频大模型，其生产的内容也能达到真实影像级，还能模拟物理世界特性，并有更高的控制性。

里面有两个关键词，第一个是 " 用户真实可用 "，这句话很重要。

可灵 AI 自 6 月推出面向公众开放内测，7 月就陆续向国内和海外的用户推出会员付费体系，近日又推出了 App，对于全球的很多向往视频大模型技术的发烧友来说，可灵或许就是他们首个开箱测试的视频生成大模型。

虽然在可灵推出之前，Sora 已经火到一塌糊涂，但 Sora 一直没有面向 C 端开放。且有真正的专业人士的评价称——尽管 Sora 非常酷，但生成过程仍难以控制，主角的一致性难以保证，需要大量人工后期编辑才能达到最佳效果。

换句话说，Sora 还做不到完整意义上的 " 用户可用 "，因为这里的 " 用户 " 是消费级用户，也就是普通人。

反过来理解就是，如果一个视频大模型很酷，但它不能用，且仍然需要专业人士的能力进行大量人工后期编辑，那对普通人的意义就很小。

就拿我自己做例子，我是一个资深的文字内容创作者。如果我对一个语言大模型的评价是 " 需要大量后期人工编辑 "，那潜台词就是 " 普通人不会觉得好用 "。

而可灵虽然不能说一步到位、毫无瑕疵，但做到了 " 用户可用 "，这就超过了绝大多数竞品。

另一个理解可灵的关键词是 " 真实影像级 "，这就很可怕了。

真实影像级，就是我们拍摄真实存在的物理世界才能产生的影像，换句话说，它不能是动画或特效，也不能夸张和失真，要达到与物理世界一致。

目前，连吃面条这种坑死所有 AI 视频产品的 case，可灵都能完美的呈现。做一些复杂的动作或者细腻的表情，也都没啥问题。

而这个高度，把绝大多数目前的视频生成大模型给挡在了外面。

现在，可灵已经是达到世界水准的现象级视频大模型，就连很少点评中国互联网的 " 钢铁侠 " 埃隆 · 马斯克在看到可灵创作出的作品时，都说了一句："AI 娱乐产业正在发生飞速变化 "。

快手主站业务与社区科学线负责人盖坤曾根据可灵 AI 的迭代速度做出预测，乐观估计，预计 1 年左右视频生成大模型就能达到个人制作影视剧的成熟度。

最近，快手还介绍了一项可灵 AI 导演共创计划。李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等 9 位知名导演，将依托可灵 AI 的技术能力，制作出品 9 部 AIGC 电影短片。

换句话说，如果可灵能够成为真正意义上的知名导演的创作工具，哪怕仅仅是辅助，那也意味着人类在生成式影像技术上的一次历史性突破。

并非一蹴而就

可灵到底是如何变得这么强大的呢？

盖坤有一个很合理的解释，他说：" 最好的选择就是依托快手现有的业务，对现有的业务升级，能够在现有业务里面形成研发投入的正循环，这样才能让快手 AI 真正有穿越市场周期的能力，能够在长跑中取胜。"

简单的解释就是，可灵的进步，是快手的用户在真实中使用、反馈、改进、提升这样一个闭环所循环推动的。

6 月发布后，可灵已经进行了 10 次升级。

时长上，在行业里普遍还在卷 5 秒、10 秒的视频生成时，可灵就已经推出最长可以延伸到 3 分钟的产品。这也意味着，可灵的生成时长，已经覆盖了所有的短视频和部分的中视频，而中视频的起步时长是 1 分钟，这意味着它对于创作者已经有了重大的实质性价值提升。

9 月，可灵还升级了基座模型，新的可灵 1.5 模型，在画质质量、动态质量、美学表现、运动合理性以及语义理解等方面均有显著提升。

为了进一步提高画面控制力，可灵 AI 还先后内测推出了 " 运动笔刷 "、" 对口型 "、" 人脸模型 " 等功能。

这里要解释一下何为 " 运动笔刷 "。" 运动笔刷 " 的主要功能，是支持为图片中的元素（人或物体等）指定运动轨迹，用户只需将图片中需要控制运动方向的部分勾勒出来，然后画一个示意运动方向箭头，就可实现精准运动控制。

可以说，这个功能的提供，某种程度上是可灵从 " 可玩 " 到 " 可用 " 的分水岭。

对于大多数只能生成几秒或十数秒的视频模型来说，用户主要是体验性的，说的直接一点就是追求 " 好玩 "。比如，你生成一个少女抚摸熊猫的视频，只要大体达到预期，你就不太会有精细调整的需求。而运动笔刷的存在，意味着用户可以精细的修正生成结果——这也意味着，只有进阶用户，或者直接把可灵作为视频生产力的用户，才有这种对高级控制功能的需求。

而这一切，仅仅发生在 3 个月时间里。它不仅反映了可灵的快速进步，也反映了这条赛道上的硝烟弥漫和你追我赶。

可灵的意义和行业的未来

可灵为什么能够在这么短的时间里赶超行业标杆 Sora，同时又不断的自我进化呢？

我认为可以理解为，它是 " 两个生态 " 合力发挥作用的结果。这两个生态，分别是快手的技术生态和应用生态。

先说技术生态，这里就不可避免的提及作为视频大模型中的开创之作的 Sora。

行业里有一句这样的评价：Sora 相当于是 openAI 集齐七龙珠之后的融合产物 "。

这句话的意思其实很深，它其实是在告诉读者，视频生成大模型并不是凭空崛起的，它是 LLM 大模型（大语言模型）竞争的延伸和发展。

一方面，所谓的文生图、文生视频，都需要模型能 " 听懂人话 "，用专业一点的话说就是 " 依赖文本语义去牵引和约束生成的内容 "，所以好的大语言模型是可灵成功的一个重要的基础。

这也证明了，快手先后发布的 1750 亿参数规模的通用大语言模型 " 快意 " 和文生图大模型产品 " 可图 "，都是 " 可灵 " 一鸣惊人的技术基石。

另一方面，视频生成的技术路线，也早有提出，如 Google video 多模态开源模型，以及李飞飞的一些早期论文，都多次提到了视频生成的技术路线。

但还有一句话是——技术路线早有人提出，但视频模型的真正考验是工程化。

这意味着，快手强大的基础模型能力、快手拥有的资源和生态，以及快手 AI 研发人员惊人的工程能力，才是最后支持 " 可灵 " 崛起的三根支柱。

盖坤的解释则更深入，他指出，可灵是四个 AI 能力模块的集成，分别是编解码模块、SPT 视频建模模块、语义理解模块、视频理解模块，而且 " 它们都比 GPT 要复杂 "。

所以，一个结论就是，正是基于快手浓厚的技术文化和生态，才能基于已有的能力，创造出可灵这种在原理上并不陌生，但是在工程上难度极高的产品。

而另一个生态，就是快手所拥有的应用生态——中国头部的短视频直播平台。

和很多新兴的 AI 应用急于 " 找场景 " 不同，快手的内容社区属性，是大模型具体应用诞生后，最好的检验场景。创作者依托 AI 完成的无数创意作品，也形成了一条高价值的内容赛道。

在今天，视频特别是短视频已经证明了自己在方方面面的影响力，也正在从短视频出发改变了内容娱乐、文化创作、电商、本地生活服务等各个传统互联网赛道的竞争方式。但一个始终是瓶颈的问题是，今天，高水平的短视频、中视频制作仍然很依赖作者的专业度，也极大的提高了视频创作的试错成本，使得一些有志于视频赛道（比如我）但又没有视频创作技术的人裹足不前。

而正如摩根斯坦利评价的那样——可灵 AI 的成功，将有望使快手的用户规模和活跃度进一步提升，从而长期影响快手在电商和商业化等领域的货币化潜力。

事实上，一直以来，快手都非常重视 AI 大模型技术和现有业务的结合，借助 AI 大模型提高现有业务的效率，展现出充分的应用价值，提升商业潜力，从而形成投入研发和商业变现的正循环。

以快意语言大模型的应用为例，在商业场景里，基于快手大模型构建的数字人脚本创意生成、数字人渲染生成、数字人实时互动等全流程 AIGC 服务，可助力商业化广告主低成本生成高品质的视频和直播内容。

在内容的理解和推荐方面，快手通过大语言模型、多模态大模型等技术，已经可以准确高效地理解视频内容和用户兴趣，而将这些标签应用在推荐、搜索、广告、垂类运营、生态分析、内容安全等各种场景中，也可以全面的提升全站运营效率。

在内容生产及互动方面，据财报，三季度快手 AIGC 营销素材日均消耗超 2000 万，而互动助手 AI 小快也融入了包括奥运竞猜、用户私信和评论区互动等更多场景，MAU 峰值突破 1800 万。

在这两天的世界互联网大会上，快手联合创始人杨远熙是这样解释 AI 的意义的—— AI 与大模型不仅仅是工具，更是对企业发展引擎的迭代，重塑内容与商业、供给与需求、用户与社区的交互关系，创造出新业态、新场景和新模式，不断释放数字经济发展的新动能。

快手已经为 AI 领域的应用和产品创新建立了强有力的基础设施支撑和 " 工具箱 "，形成了新质生产力平台。

作为 " 核心技术攻关 " 的代表成果，可灵 AI 一方面进一步降低了视频内容制作的门槛，让更多普通人可以通过短视频直播获得收入。另一方面，人与 AI 的协作将大幅度革新视频内容的生产方式，并帮助越来越多的专业人士节省时间，个人创作影视剧的时代即将到来。

就像开头提到的那样，至少就可灵而言，我认为它也许会给快手乃至中国的优质消费级内容产业巨大的变化。

—— END ——

—

作者｜胡喆

交流 / 互动欢迎添加我的个人微信

胡喆

科技财经作家、数字产业资深观察家、品牌专家。

公众号「胡说成理」创办人、超头部自媒体撰稿人。

数字产业资深观察家，曾任雷锋网副总编、《电脑报》新闻中心主任多年，后应邀加入百度多年，成为百度历史上第一位 CEO 品牌专任负责人；亦较早服务于 UCWeb 的创业，后投身移动互联网创业企业任联合创始人、市场副总裁等。

品牌研究专家，受聘为分众传媒终身顾问、百度、妙可蓝多、问界汽车等企业和品牌的 CEO 品牌顾问、企业文化品牌顾问，作品被收入于《人心红利》《抢占心智》等著作中。

互联网史名作《沸腾新十年》联合作者，该书曾获得豆瓣、当当等权威图书平台的 "2022 年中国财经商管图书 Top10" 荣誉。

热门推荐

宙世代

一起剪

相关标签