财联社 2 月 26 日讯(编辑 史正丞)北京时间周二深夜,阿里巴巴正式开源旗下视频生成模型万相 2.1 模型。顶级前沿模型的开源浪潮,终于涌向由 AI 驱动的视频创作领域。
这也是本周 AI 产业 " 诸神混战 " 的最新一章。周一美国Anthropic 公司意外发布首个混合推理 AI 模型 Claude 3.7 Sonnet。与此同时,DeepSeek 也在持续开源 5 个代码库,赶忙上架 " 最强大模型 " 的xAI将推出一系列应用层面的优化。美国科技巨头亚马逊也已经定档周三,将给语音助手 Alexa 带来 "AI 升级 "。坊间也有传言称,OpenAI 可能会在本周推出 GPT-4.5。
根据通义介绍,此次开源的是两个版本的模型:14B 版本适用于专业创作者迅速上手部署,而 1.3B 参数量的版本在家用显卡(注:官方给的例子是英伟达 4090)上用单卡 8.2G 显存就能生成 480P 高质量视频。性能甚至能与某些 5B 参数量的闭源大模型相媲美。
受此消息影响,阿里巴巴美股盘中异动拉升,带动中概股集体走强。
根据视频生成模型的 " 大模型排行榜 ",万相 2.1 在 VBench 基准测试中位居全球第一,力压美图奇想、OpenAI Sora、Adobe/ 麻省理工的 CausVid、苹果 STIV 等一众国内外竞品。
(来源:huggingface)
而行业领跑者的主动开源,而且是全部推理代码和权重全部开源,意味着视频生成模型赛道将会更加生机勃勃,竞争和迭代也会变得更加激烈——对于消费者以及内容产业的从业者而言,生产力跃升的速度也会变得更快、成本和使用门槛将快速降低。
作为全球领先的视频生成模型,万相 2.1 的技术突破主要体现在两点,首先是能够展现复杂稳定的人物肢体动作,以及精准还原碰撞、反弹等复杂物理场景。这决定了 AI 生成的视频是否具有足够的真实性。
而且大模型也能驾驭各种风格和题材。
另一个巨大的优势,是万相 2.1 能够直接通过提示词,在视频中生成中文字(英文字也可以),以及特殊艺术效果。可以想见,随着这个模型的开源,中文 AI 应用市场又将迎来一波新玩法的升级。
在 AI 视频中准确生成文字,不论是中文还是英文,是绝大多数竞品目前未能达到的高度。
(来源:OpenAI Sora)
随着万相 2.1 完全开源,OpenAI、谷歌等竞品也将直面商业化的挑战:更好的模型已经开源了,AI 生成视频的定价也将面临挑战。
拖了一整年后,OpenAI 于去年底终于发布 Sora 产品,面向 20/200 美元的订阅用户。OpenAI 曾表示,由于算力不足,暂时没有推出 API 的计划。谷歌 Veo 2 模型则在近期披露定价,每生成 1 秒视频需要付费 0.5 美元,相当于生成一个小时的视频需要花费 1800 美元。
登录后才可以发布评论哦
打开小程序可以发布评论哦