全球AI大混战升温！超越Sora的阿里万相大模型开源家用显卡都能跑

财联社 2 月 26 日讯（编辑史正丞）北京时间周二深夜，阿里巴巴正式开源旗下视频生成模型万相 2.1 模型。顶级前沿模型的开源浪潮，终于涌向由 AI 驱动的视频创作领域。

这也是本周 AI 产业 " 诸神混战 " 的最新一章。周一美国Anthropic 公司意外发布首个混合推理 AI 模型 Claude 3.7 Sonnet。与此同时，DeepSeek 也在持续开源 5 个代码库，赶忙上架 " 最强大模型 " 的xAI将推出一系列应用层面的优化。美国科技巨头亚马逊也已经定档周三，将给语音助手 Alexa 带来 "AI 升级 "。坊间也有传言称，OpenAI 可能会在本周推出 GPT-4.5。

根据通义介绍，此次开源的是两个版本的模型：14B 版本适用于专业创作者迅速上手部署，而 1.3B 参数量的版本在家用显卡（注：官方给的例子是英伟达 4090）上用单卡 8.2G 显存就能生成 480P 高质量视频。性能甚至能与某些 5B 参数量的闭源大模型相媲美。

受此消息影响，阿里巴巴美股盘中异动拉升，带动中概股集体走强。

根据视频生成模型的 " 大模型排行榜 "，万相 2.1 在 VBench 基准测试中位居全球第一，力压美图奇想、OpenAI Sora、Adobe/ 麻省理工的 CausVid、苹果 STIV 等一众国内外竞品。

（来源：huggingface）

而行业领跑者的主动开源，而且是全部推理代码和权重全部开源，意味着视频生成模型赛道将会更加生机勃勃，竞争和迭代也会变得更加激烈——对于消费者以及内容产业的从业者而言，生产力跃升的速度也会变得更快、成本和使用门槛将快速降低。

作为全球领先的视频生成模型，万相 2.1 的技术突破主要体现在两点，首先是能够展现复杂稳定的人物肢体动作，以及精准还原碰撞、反弹等复杂物理场景。这决定了 AI 生成的视频是否具有足够的真实性。

而且大模型也能驾驭各种风格和题材。

另一个巨大的优势，是万相 2.1 能够直接通过提示词，在视频中生成中文字（英文字也可以），以及特殊艺术效果。可以想见，随着这个模型的开源，中文 AI 应用市场又将迎来一波新玩法的升级。

在 AI 视频中准确生成文字，不论是中文还是英文，是绝大多数竞品目前未能达到的高度。

（来源：OpenAI Sora）

随着万相 2.1 完全开源，OpenAI、谷歌等竞品也将直面商业化的挑战：更好的模型已经开源了，AI 生成视频的定价也将面临挑战。

拖了一整年后，OpenAI 于去年底终于发布 Sora 产品，面向 20/200 美元的订阅用户。OpenAI 曾表示，由于算力不足，暂时没有推出 API 的计划。谷歌 Veo 2 模型则在近期披露定价，每生成 1 秒视频需要付费 0.5 美元，相当于生成一个小时的视频需要花费 1800 美元。

宙世代

一起剪

相关标签