全天候科技 12-13
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 视频的战场,正从单纯的比拼画质,进化到比拼对物理世界的理解。

12 月 11 日,AI 视频生成独角兽 Runway 正式发布了其首款通用世界模型(General World Model)—— GWM-1,正式杀入由谷歌、英伟达等巨头领先的 " 世界模拟 " 战场。

与传统的 AI 视频生成模型不同,GWM-1 被设计为一个能够理解物理规律、几何结构及环境动态的模拟系统,其核心突破在于 " 连贯性 " 与 " 交互性 "。

Runway 宣称,基于对物理规律和环境动态的理解,该模型能通过逐帧预测来模拟世界随时间演变的过程,并支持长达数分钟的连贯实时交互。

拆解 GWM-1:从 " 像素预测 " 到 " 通用模拟 "

所谓 " 世界模型 ",是指在让 AI 在内部构建对现实世界运行机制的模拟,使其能够在无需遍历现实所有场景的情况下,具备推理、规划和行动的能力。

" 要构建一个世界模型,首先需要构建一个真正卓越的视频模型。"Runway 首席技术官 Anastasis Germanidis 在发布会上指出,教模型直接预测像素,是实现通用模拟的最佳路径。

不过,尽管被冠以 " 通用 " 之名,但目前的 GWM-1 实际上是由三个针对不同领域进行后训练的自回归模型(GWM-Worlds、GWM-Robotics 和 GWM-Avatars)组成的模型系列,且均建立在 Runway 最新的 Gen-4.5 基座模型之上。

Runway 明确表示,其最终愿景是将这些不同的领域和动作空间统一到一个单一的基础世界模型中。

(1)GWM-Worlds:可交互的数字环境探索界面

先看 GWM-Worlds。

如前所述,GWM-Worlds 是建立在 Runway 最新的 Gen-4.5 基座模型之上,进行后训练的自回归模型。这意味着,它采用了逐帧预测的方式预测下一帧。

换而言之,在任何时刻,用户都可以根据应用场景进行干预,例如在空间中移动、控制机械臂或与智能体交互,模型都会模拟接下来发生的事情。

在官方的演示素材中能看到,该模型提供了一个用于探索数字环境的界面,用户可以通过提示词或参考图像设定场景,模型将以 24fps 的帧率和 720p 的分辨率生成环境。

与传统视频生成不同,用户可以实时改变镜头视角、环境条件或物体状态,模型能够理解几何与光影,确保生成的画面在长序列运动中保持连贯性。

除了游戏设计预览和 VR 环境生成外,GWM-Worlds 更深远的意义可能在于为 AI Agent 提供训练场,教导它们如何在物理世界中导航和行动。

(2)GWM-Robotics:解决具身智能的 " 数据饥渴 "

如果说 GWM-Worlds 还带有创意工具的基因,那么GWM-Robotics的推出,则展示了 Runway 进军工业与具身智能领域的野心。

在机器人研发中,获取极端天气、突发障碍等 " 长尾场景 " 的真实数据成本极高。GWM-Robotics 旨在解决这一痛点,通过生成高质量的 " 合成数据 ",模拟各种环境变数,帮助机器人在虚拟空间中进行策略评估。这不仅能大幅降低训练成本,还能在机器人投入真实世界前预判其违规风险。

Runway 已明确表示,目前正通过 SDK 向部分企业开放 GWM-Robotics,并与多家机器人公司保持积极接触。显然,Runway 试图在单纯的 SaaS 订阅收入之外,开辟面向 B 端工业客户的新业务。

(3) GWM-Avatars:统一视频与语音的交互终端

GWM-Avatars则瞄准了人机交互。这是一个将视频生成与语音结合的统一模型,Runway 宣称其生成的数字人能进行长时间连续对话且无画质损耗。

若该技术效果属实且能规模化落地,或将对客户服务及在线教育行业产生颠覆性影响。

基座进化与算力军备

在仰望 " 世界模型 " 的同时,Runway 并未放松对现金牛业务的巩固,也对当家的视频生成基座进行了防御性升级,以应对来自 Kling(可灵)等竞争对手的追赶。

同期发布的 Gen-4.5 模型更新,补齐了原生音频和多镜头编辑的短板。新版本支持生成长达一分钟的视频,并能保持角色一致性、生成原生对话和背景音效,继续从 "C 端玩具 " 迈向 "B 端生产力工具 " 的征程。

值得一提的是,为了支撑公司从创意生成迈向世界模拟的庞大算力需求,Runway 还宣布与云服务商 CoreWeave 达成协议。据 Runway 披露,未来将利用 CoreWeave 云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理。

结语

从影视创意工具到机器人模拟器,Runway 的战略版图正在极速扩张。但在世界模型这一新赛道上,它已不再拥有视频生成初期的先发优势。

面对 Google、Nvidia 等拥有深厚底层资源和科研积累的巨头,能否利用 GWM-1 证明自己不仅是一家影视行业的 " 特效供应商 ",而是有能力成为物理世界的 "AI 架构师 ",将是评估其估值能否迈向下一阶段的关键。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 物理 规律 界面 分辨率
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论