文|富充、周鑫雨
编辑|苏建勋
" 如果 2026 年还只盯着视频生成本身做迭代,是不够的。"Luma AI 的首席科学家宋佳铭,对《智能涌现》作出了这一预判。
成立于 2021 年的 Luma AI,是美国视频生成领域的明星创业公司。《智能涌现》获悉,近期 Luma AI 已按照 40 亿美元估值,完成 9 亿美元 C 轮融资。本轮由沙特公共投资基金(PIF)旗下机构 HUMAIN 领投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners 等老股东均大额加注。
在视频生成类 AI 公司更多还在卷更长的时长和更好的画质时,宋佳铭具体解释了他的 " 异见 ":下一阶段真正要提升的,不是画面本身,而是模型对现实世界的理解与推理能力。
他用一个影视制作现场的场景做解释:在影视制作中,若导演需要补拍一个遗漏的俯视镜头,传统的视频生成模型只是根据提示词生成一段相关内容,却容易存在与前后画面不相符的细节。
但推理模型则能够理解已有片段的场景空间、角色位置与镜头逻辑,这样才能制作出在物理上更合理、衔接更丝滑的视频。
正因如此,推理视频生成模型可以被应用在专业的影视与广告等,这成为其变现的基础。
"Sora 2 掀起的大众玩梗热潮,并不意味着视频模型的 To C 时代已经到来。普通用户在新鲜感过后,便难以持续买单。" 宋佳铭解释起视频生成模型现阶段的商业情况。
而实现视频生产模型更强推理能力的关键,就是采用语言、图像与视频数据,训练 " 多模态大一统 " 模型。因为,多模态融合将为模型提供更丰富、多元的数据量,这将推动模型能力从 " 生成 " 升级到 " 理解 "。
这条路径今年已经在图像生成领域验证一遍:2024 年,业内还对多模态架构存在分歧,而进入 2025 年后,图片生成模型已基本将文生图、图编辑等任务整合进统一模型。竞争焦点也已从架构设计转向高质量的数据收集。
他认为,视频生成模型明年也将复现同样的收敛过程。
不断预测下一步的技术和商业化方向,并突破自己,是 Luma AI 一直以来做的事。
这家 2021 年成立的公司最初从 3D 生成起步,于 2023 年底转向市场空间更大的视频生成模型。
2024 年 6 月,Luma AI 推出面向 AI 与设计 " 小白 " 的视频生成模型 Dream Machine,开启 C 端市场探索。Dream Machine 以 " 零推广费 " 在 4 天内吸纳百万用户,凭借电影级运镜和生成效果,被业内称为 " 能与 Sora 叫板的视频生成模型 "。
不过,Luma 并未停留在 C 端的热度中。今年以来,Luma AI 逐步把重心转向付费意愿更强、需求更刚性的 B 端专业用户——影视、广告、内容制作机构等。
今年 9 月,Luma AI 推出全球首个视频推理大模型 Ray 3。
但在近期的专访上,宋佳铭向《智能涌现》给出了新的判断:Ray 3 很可能会是 Luma 最后一代传统视频生成模型。公司已经把 " 多模态大一统模型 " 确立为下一阶段的核心方向。
这一目标也需要更大的算力和资金支持。
Luma AI 本轮投资方之一的 HUMAIN 正在沙特建设名为 "Project Halo" 的 2GW 人工智能超算集群,这是全球最大的算力基础设施建设项目之一。Luma AI 将作为核心客户采用该算力,用于训练下一代多模态世界模型,进一步提升视频推理与大一统模型的能力。
从 3D 生成起家,到凭借 Dream Machine 在 C 端引起关注,再到如今通过布局推理、多模态大一统模型更好地服务 B 端专业客户。Luma AI 的每次关键抉择都在自己原本业务基础上,向外再扩展一步。
关于对当前视频生成模型的行业观察及未来预测,宋佳铭在专访中详细展示了他的观点。以下内容来自对话,经作者整理:

△宋佳铭,图片:采访人提供
视频生成模型的未来:推理能力、多模态大一统
智能涌现:你自己说过 "Ray 3 可能是 Luma AI 最后一代传统的文生视频模型 ",这句话如何理解?
宋佳铭:我的判断是,未来的大模型不会再把图片、视频、音频、文本当成彼此孤立的模态,而是放在一个统一的框架下去处理,这就是我们说的 " 多模态大一统 " 模型。
多模态大一统带来的数据量增长,会给视频生成模型带来更好的推理能力,这有助于模型做出更合理的视频处理,并帮助用户自动甄别视频上的问题。
语言模型之所以有用,是因为它有很强的上下文学习、Zero-shot(零样本学习)等能力,也具备很强的推理能力。我觉得这些迟早要在视觉和视频模态里出现,而不只是在卷更长的时间、更好看的画质。
智能涌现:能不能用一个具体的例子解释一下,视频推理模型和传统视频模型的差别?
宋佳铭:举一个来自拍戏的例子。现实拍摄中,剧组会同时架好几个机位,分别拍多个演员的不同角度。假如收工以后导演突然发现,忘了拍一个俯视下来的总览镜头,需要 AI" 补拍 " 一个。
这时候,如果你只用传统的视频生成模型,它大概率会 " 发挥想象力 " 生成一个看起来还行的俯视镜头,但细看会发现:人物位置、背景物体的布局和之前的机位可能对不上。
而在我们定义的视频推理任务里,模型需要先做的不是 " 生成 ",而是 " 理解和推理 ":它要从不同机位的素材中,找到同一个背景物体在不同视角中的对应关系,推理出每个演员、每件道具在统一三维空间里的位置,然后再从一个全新的俯视视角,生成一段物理上合理、镜头运动自然、和前面镜头无缝衔接的视频。
智能涌现:今年很多视频生成模型公司的业绩都不错,大家的技术路径也百花齐放,但你似乎认为 " 这是最后一个视频模型百花齐放的年份 ",并且明年视频生成会收敛到大一统模型,这是为什么?
宋佳铭:如果我们从图像生成模型的历史规律去看,去年可能大家还不确定是否要做图像模型的大一统。或者说,去年的情况是大家倾向于面向不同任务做不同的工具流,然后根据不同任务做对应的调整,或者模型微调,但今年大家的路线是把任务都放进同一个多模态模型里。
到了现在,很少有人说会做一个和 GPT 4o 或者 Nano Banana 完全不一样的架构。当架构统一后,竞争的核心便从模型设计转向了数据驱动,真正的重点在于能否收集到足够量的优质数据。
我觉得图像在今年发生的情况,视频领域明年也会发生。
智能涌现:在大一统模型的技术路径上,Ray 3 对于 Luma 来说,正在扮演一个什么角色?
宋佳铭:Ray 3 算是一个阶段性成果。
这其中比较重要的积累是基础设施,不论是训练基础设施,推理基础设施,还是数据的基本的基础设施,其实可能都比算法积累本身的重要性大。
因为算法大家做了这么多年,其实也没有太多核心的变化。基本上都是在沿用五年前的自回归路线(GPT 3)和扩散模型路线(DDPM),这五年来有一些小的改动,但是不多。所以我觉得在此期间,最重大的一些进步,其实都来源于 Scaling,就是说把模型和数据的规模扩大。
智能涌现:多模态大一统、视频推理模型,这些方向和你心目中的 AGI 有怎样的关系?
宋佳铭:我对 AGI 的标准会比较苛刻一点。
现在很多人会说 " 某些代码模型已经超过大部分程序员 ",我同意在这个维度上它可以叫 " 超人 ",但如果只是这样,那计算器早就超越人类心算了,我们也不会叫计算器是 AGI。对我来说,如果人类能在某个任务上做到,而 AI 完全做不到,那就还谈不上 AGI。
目前在很多维度上,AI 距离人都还有很大差距,比如自动驾驶、机器人、具身智能,以及对真实物理世界的长期规划和执行。
多模态大一统视频模型对于 AGI 的意义,就在于最终能把对现实世界的理解和操作能力,从纯语言空间扩展到视觉、动作、时间这几个维度。

△ Luma AI 的模型可以仅凭提示词,就生成画面高清、且充满想象力的 HDR 视频片段,图片:采访人提供
To C 时代还没到来
智能涌现:从产品角度看,之前 Sora 2、Nano Banana 的出圈给模型公司什么启示?
宋佳铭:我觉得有一个很重要的提示是:要从产品的角度去设计一些使用场景,以及找到驱动用户使用的点,让技术特点本身能长成传播爆点。
智能涌现:之前 Luma AI 的 Dream Machine 推出时,我们在采访中聊到它在很大程度上可以服务于没有太多设计、AI 积累的 C 端人群。但后来公司的重心逐渐转向了 B 端专业用户,这是为什么?
宋佳铭:我更愿意把那看成一个渐变过程,而不是某一天突然掉头。
可以先类比语言模型:Chatbot 的 C 端热度在去年已经很高了,但今年大家谈得更多的是写代码、智能体这些明确的 To B、To Pro 场景。
因为对普通用户来说,哪家的 Chatbot 差别没有那么大,大家也不愿意为此付很高的订阅费;但对程序员来说,如果一个工具能让他的产出翻一倍,公司愿意替他为这个工具买单。
视频模型也是类似逻辑。C 端用户玩视频生成,很容易腻,也不一定有稳定的付费意愿;而 B 端客户——比如影视公司、广告公司、内容制作方——一旦发现某个 AI 能在他们的主流程里节省大量人力、时间和硬件投入,他们的付费意愿和粘性会远高于 C 端。
智能涌现:之前 Open AI 的 Sora 2 在社交平台上被大家玩梗玩得很开心。你觉得,这代表着视频生成模型开始走向 C 端了吗?
宋佳铭:我觉得 Open AI 做 To C 和视频生成模型做 To C 不是一个概念。Open AI 做 To C 更多是因为他的这个估值已经是 5000 亿美元了,所以它如果去做 to B 的话,好像也没有什么这个 B 端能接住它的盘。
Open AI 自己就是个 Business,并且需要寻找更大的增长点。这和 Meta、字节跳动的原理是一样的,就是说当规模大到一定程度的时候,企业肯定会去做 To C 的努力,探索规模的最大化。但这不代表整个视频生成模型领域也要、或者也能做 To C。
美国著名投资机构 A16z 的合伙人 Olivia Moore 曾在她的社交媒体上发过一组数据,显示 Sora 2 在 30 天的留存仅为 1%,60 天的留存就低于 1% 了。相比之下,TikTok 视频的留存率可以维持在 30% 左右。这也侧面说明,Sora 2 的玩梗效应不能代表视频生成模型已经跑通了 C 端。
智能涌现:视频生成模型走向 C 端还面临哪些现实难点?
宋佳铭:从纯技术角度看,短视频平台上已经有不少 AI 视频内容,To C 并不是做不到。难点是要想清楚商业模式能不能跑得通。
从商业模式上,我还没看清视频生成 to C 应用作为社交产品的价值在哪。
今天的抖音、YouTube、Instagram,本质上是 " 社交 + 分发 " 平台,大部分人看的还是那 1% 最热门的视频,围绕这些内容形成了公共话题。如果未来每个人 100% 都在看 AI 为自己定制的视频,你和别人之间的共鸣反而会下降,大家缺少 " 看同一件东西 " 的交流基础,这不符合社交的基础逻辑。
智能涌现:现在视频生成做得不错的公司不少,在 To B 侧你觉得竞争压力大吗?
宋佳铭:如果单看舆论场,会觉得竞争非常激烈,但在美国 To B 市场,实际压力没有表面看上去那么大。
原因其实很现实:第一是政治和合规因素,经过筛选之后,真正能进入严肃美国企业名单的几乎都是美国本土供应商。这个名单其实很短,比如 Google、我们,以及少数几家美国创业公司。
第二是美国 To B 市场本身更成熟,对软件订阅、API 收费、企业服务的接受度,要高很多。To B 生意 " 好做 " 不是说轻松,而是商业模式更清晰。
智能涌现:Dream Machine 在今年 6 月上线之后,外界看到的一些商业化成绩似乎还不错。不过 Luma 起步时是做 3D 视频生成业务,当时的商业化情况如何?差异主要产生在哪里?
宋佳铭:之前我们就在 3D 方面有商业化尝试,但我不认为那是可扩散或者很成功的。
当时的 3D 生成技术,无论从质量还是应用场景都比视频弱一些。
目前使用 3D 生成模型最多的应用场景还是集中在游戏、数字人这些领域,这种有深度科技能力的游戏公司也不是特别多,就是说潜在客户量可能会比较少。而且,像腾讯这种既有强 3D 能力、又有游戏业务的大厂,理论上更倾向于自己做基础能力,不太会长期依赖外部模型。
从技术上来说,3D 数据本身远少于视频数据,AR/VR 生态整体也还没成熟到 " 内容极度缺乏、必须靠生成式 AI 填充 " 的阶段。所以从结果上看,3D 在我们这里更像是前期探索,真正被验证有商业潜力、市场接受度的,还是视频这个条线。
视频生成模型没有绝对技术护城河
智能涌现:从你的视角看,现在的视频生成领域有没有所谓的 " 绝对护城河 "?
宋佳铭:目前我不觉得有哪一种模型结构或者哪一套方案能构成绝对护城河。
过去几年能看到的更多是,大家在同一个大方向上不断试各种组合,算法层面过去一两年其实没有出现颠覆级的新结构,差异主要体现在迭代速度和工程实现上。
真正拉开差距的是谁能在大规模上把这套东西 " 跑通又跑稳 ",而不是 " 谁先想到了这个点子 "。
语言模型的总量基本在几十 T 或者基本上是不会超过 100T 的量级,视频模型很容易达到几 PB 或几十 PB 的数据量,这是文字的几百上千倍。
所以在视频这里,更大的挑战反而是:获取数据的能力,以及有没有能力在工程上托住这么大的数据规模,把它们清洗好、对齐好,让模型真正从中学到东西。
智能涌现:视频生成模型现在似乎也没有一个统一的评判标准," 最强模型 " 怎么判断?
宋佳铭:确实没有统一标准,这背后有几个原因。第一是技术路线还在摸索,相对语言模型已经有高度收敛的架构,视频这边在架构和训练方式上还有很多可以探索的方案。
所以我不太愿意简单说 " 谁是世界最强的视频模型 "。而且,打榜成绩只反映一部分特性,我认为更关键的是客户在实际工作流里到底要什么功能,比如有没有 HDR,这更符合专业视频生产的需求。
如果从有 HDR 这个维度来讲的话,我们独此一家,但是看其他指标的话,我觉得评价标准又会有所不同。

△相比于通常视频的 8 比特像素,HDR 的颜色表达范围多了一个数量级,这体现在更多的高光和阴影细节上,对于电影制作管线至关重要,图片:采访人提供
智能涌现:扩散模型和自回归模型,谁的 " 天花板 " 更高?
宋佳铭:我现在不会给出 " 谁的天花板更高 " 这样的结论。真正决定上限的,其实是数据量和架构设计,从数学层面上,都还没有碰到实际的天花板。
我觉得关键的还是找到商业用户的痛点,这样我才能去提供客户真正想要的东西,这不一定和 AI 的模型能力直接相关。
智能涌现:你觉得视频和大一统模型的赛道,会像语言模型一样收敛到少数几家吗?这对初创公司意味着什么?
宋佳铭:我觉得这是几乎可以类推的结论。
如果回头看语言模型这条线,会发现一直能持续做得好的玩家其实就那么几家,很多项目要么转型,要么被并购,要么慢慢消失。视频和多模态大一统,本质上是同一条大模型产业链上的分支,只要跟 " 基座模型 " 这件事绑得足够深,它也不可避免地会走向头部高度集中。
在国内,我个人基本不会考虑从零做这种基座模型创业,因为大厂在资金、人力、算力上的优势太大,留给纯技术向创业公司的空间非常有限;在美国会好一些,美元基金还有动力在这个方向下注,退出机制也更清晰,和大厂之间的合作、并购、共建都更常态化。
Luma 的路线:模型迭代、融资与人才
智能涌现:Ray 3 是 9 月推出的,Ray 2 的推出差不多在这七个月之前,在这七个月时间里,Luma 团队有在尝试不同的方向吗?什么才是重点?
宋佳铭:我们会尝试不同的方向,比如世界模型,但最主要的还是大一统模型。
大一统模型有很多方法把不同的模型拼起来,这里面有的组合更能带来短期收益,比如用别的公司训练好的模型去实现某些能力。和训练自己的模型相比,这当然是更快的。
我们希望兼顾短期的收益,但总体而言,更倾向完成长远的布局。
智能涌现:这次 C 轮融资,你们拿到了 9 亿美金级别的资金,估值也大幅抬升。在你看来,投资人下注的核心理由是什么?
宋佳铭:这次由沙特主权基金 PIF 旗下的 HUMAIN 领投,AMD Ventures 和 Amplify、Matrix 这些老股东都继续加码。对我们自己来说,这件事更像是几层逻辑被外部验证了一次。
这里包括过去成绩,和创新和迭代速度的验证。
同时,投资人也在找 " 下一个基座模型玩家 "。对一些美元基金来说,他们并不满足于只看短期商业化的利益,而是希望长期押出真正有机会做大的公司。我想,更看重长期布局的能力也是投资人下注我们的理由。
智能涌现:C 轮融资这笔钱具体会花在哪里?
宋佳铭:算力仍然是绝对大头,不管是训练还是推理,对做大规模多模态模型的公司来说,都是最大的刚性支出。
另一块是人才和基础设施建设,我们需要继续扩充工程和系统团队,不是为了变成 " 小版的大厂 ",而是为了真正把这些模型 " 跑得更稳、更快、更便宜 "。
智能涌现:现在 Luma 的团队结构是怎样的?在招人这件事上,你个人更看重什么?
宋佳铭:目前团队大概一百三十人左右,其中 30% – 40% 是技术研发,其余是产品、商业、市场和运营。
和很多公司不同,我们没有特别强调 " 传统意义上的产品经理 ",而是让很多人共同承担产品职责:有些人偏工程,但非常懂用户场景;有些人偏运营,又能把需求翻译成清晰的技术任务,所以 " 产品思考 " 是被分散在很多人身上的。
招人方面,我们会尽量避免卷进 " 抢明星选手 " 的价格战,更像是足球俱乐部里的 " 青训和球探体系 ":那些已经家喻户晓的球员,转会费肯定很高,创业公司去抢代价极大;我们更希望在一个人还没被市场广泛共识之前,就发现他、支持他。
我个人会非常看重三点:写代码能力要足够扎实,学习速度要快,以及自驱力和对这件事的长期兴趣。
封面来源|企业官方


登录后才可以发布评论哦
打开小程序可以发布评论哦