科创板日报 02-26
全球AI大混战升温!超越Sora的阿里万相大模型开源 家用显卡都能跑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

财联社 2 月 26 日讯(编辑 史正丞)北京时间周二深夜,阿里巴巴正式开源旗下视频生成模型万相 2.1 模型。顶级前沿模型的开源浪潮,终于涌向由 AI 驱动的视频创作领域。

这也是本周 AI 产业 " 诸神混战 " 的最新一章。周一美国Anthropic 公司意外发布首个混合推理 AI 模型 Claude 3.7 Sonnet。与此同时,DeepSeek 也在持续开源 5 个代码库,赶忙上架 " 最强大模型 " 的xAI将推出一系列应用层面的优化。美国科技巨头亚马逊也已经定档周三,将给语音助手 Alexa 带来 "AI 升级 "。坊间也有传言称,OpenAI 可能会在本周推出 GPT-4.5

根据通义介绍,此次开源的是两个版本的模型:14B 版本适用于专业创作者迅速上手部署,而 1.3B 参数量的版本在家用显卡(注:官方给的例子是英伟达 4090)上用单卡 8.2G 显存就能生成 480P 高质量视频。性能甚至能与某些 5B 参数量的闭源大模型相媲美。

受此消息影响,阿里巴巴美股盘中异动拉升,带动中概股集体走强。

根据视频生成模型的 " 大模型排行榜 ",万相 2.1 在 VBench 基准测试中位居全球第一,力压美图奇想、OpenAI Sora、Adobe/ 麻省理工的 CausVid、苹果 STIV 等一众国内外竞品。

(来源:huggingface)

而行业领跑者的主动开源,而且是全部推理代码和权重全部开源,意味着视频生成模型赛道将会更加生机勃勃,竞争和迭代也会变得更加激烈——对于消费者以及内容产业的从业者而言,生产力跃升的速度也会变得更快、成本和使用门槛将快速降低。

作为全球领先的视频生成模型,万相 2.1 的技术突破主要体现在两点,首先是能够展现复杂稳定的人物肢体动作,以及精准还原碰撞、反弹等复杂物理场景。这决定了 AI 生成的视频是否具有足够的真实性。

而且大模型也能驾驭各种风格和题材。

另一个巨大的优势,是万相 2.1 能够直接通过提示词,在视频中生成中文字(英文字也可以),以及特殊艺术效果。可以想见,随着这个模型的开源,中文 AI 应用市场又将迎来一波新玩法的升级。

在 AI 视频中准确生成文字,不论是中文还是英文,是绝大多数竞品目前未能达到的高度。

(来源:OpenAI Sora)

随着万相 2.1 完全开源,OpenAI、谷歌等竞品也将直面商业化的挑战:更好的模型已经开源了,AI 生成视频的定价也将面临挑战。

拖了一整年后,OpenAI 于去年底终于发布 Sora 产品,面向 20/200 美元的订阅用户。OpenAI 曾表示,由于算力不足,暂时没有推出 API 的计划。谷歌 Veo 2 模型则在近期披露定价,每生成 1 秒视频需要付费 0.5 美元,相当于生成一个小时的视频需要花费 1800 美元。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 ai 美国 阿里巴巴 亚马逊
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论