文 | 超前实验室,作者|青苹吹果
时隔一年,钮祜禄 · 扎,强势归来!
Meta 全新大模型 Muse Spark 正式上线,内部代号 Avocado。

这个 " 牛油果 ",来头可不小。
TA 不仅是 Meta 超级智能实验室(MSL)成立 9 个月以来的首个成果,更是扎克伯格在经历 Llama 4 惨烈翻车后,亲手砸烂原有摊子、豪掷逾 140 亿美金进行组织与战略大洗牌之后,递呈市场的第一张答卷。
更令人意外的是策略上的彻底转向。那个曾高喊 " 开源对抗闭源 " 的 Meta,这次直接给 Muse Spark 贴上了 " 闭源 " 标签,连 API 都暂时只向少数指定合作伙伴开放预览。
这让我想起 2024 年那场沸沸扬扬的 " 开源与闭源 " 之争,当时李彦宏大跳预言家,一口咬定开源其实是一种智商税。" 当你理性地去想,大模型能够带来什么价值,以什么样的成本带来价值的时候,就会发现,你永远应该选择闭源模型。闭源模型一定比开源模型更强大,推理成本更低。"
随后几年,开源生态蓬勃发展,社区热情高涨。不少人以 " 开源胜利 " 为由,调侃李彦宏 " 判断失误 "" 被时代打脸 "。一时间,闭源似乎成了保守与封闭的代名词。
不过,风水轮流转,时代和老扎一起,再一次追上了老李。
消息一出,资本市场也瞬间做出了最诚实的反应。
周三当天,Meta 的股价像坐了火箭,盘中一度涨超 10%,最终以超过 6% 的涨幅收盘,总市值稳稳站在 1.55 万亿美元的高位。

为什么一款模型发布能有如此巨大的能量?
懂行的人一眼就看出,Muse Spark 背后藏着的,是 Mate 破釜沉舟的自我革命。
全部推翻!在 " 废墟 " 中重建高楼
要理解今天这款模型的战略意义,先要知道它诞生于怎样的一地鸡毛之中。
去年春天,被寄予厚望的 Llama 4 发布后,很快遭遇了严重的信誉危机。
社区质疑声不断,随后更是有爆料直指 Meta 在基准测试中动了手脚,拿着针对特定任务微调的 " 特供版 " 去刷榜,而公开给普通用户的版本表现完全是另一回事。
拿精修图相亲,结果见面发现是 " 照骗 "。
这件事对 Meta AI 品牌的伤害是致命的,甚至图灵奖得主、Meta 前首席科学家 Yann LeCun 在离职后也亲口承认,Llama 4 的测试结果 " 确实被修饰了一点 "。
这件事彻底点燃了扎克伯格的怒火。
据外媒报道,他 " 对所有相关人员失去了信心 ",随后直接架空了整个生成式 AI 团队,大批人马离开。
这不仅仅是某个模型的失败,更意味着过去那条从模型架构到研发流程,从开源路线到组织文化的路,可能都走不通了。
扎克伯格面临的选择很残酷,要么继续修修补补,要么全部推翻,在废墟上重建。
他选了后者,而且干得非常彻底。
2025 年夏天,扎克伯格做出了一笔震惊硅谷的交易,以高达 143 亿美元的天价拿下数据标注巨头 Scale AI 49% 的无投票权股份。
但更关键的是这笔交易的核心,时年不到 30 岁的华裔创始人 Alexandr Wang(亚历山大 · 王)被直接请进 Meta,出任首席 AI 官,统管全新组建的 Meta 超级智能实验室(MSL)。
这个年轻人什么来头?MIT 辍学、19 岁创立 Scale AI、26 岁就跻身亿万富豪行列。
扎克伯格对他的评价是:" 同辈创业者中最杰出的一位,深刻理解超级智能的历史重要性 "。
而这位年轻舵手上任后的第一把火,就是烧向旧体系,从 OpenAI、谷歌 DeepMind、Anthropic 等竞争对手那里,以天价薪酬挖来了一整支 " 复仇者联盟 "。
翻看 MSL 首批 11 人名单,你会惊讶地发现,7 位核心研究员都是华人背景。
浙大校友毕树超(GPT-4o 语音模式与 o4-mini 共同创建者)、清华校友赵晟佳(ChatGPT 到 o3 的核心成员)、中科大校友于佳慧(前 OpenAI 感知团队负责人)……再加上思维链提出者 Jason Wei、扩散模型核心人物宋飏等业内顶尖高手。
这支被戏称为 " 亿元天团 " 的队伍,目标只有一个:从零开始,重写 Meta 的 AI 命运。
更令人意外的是策略上的彻底转向。那个曾高喊 " 开源对抗闭源 " 的 Meta,这次直接给 Muse Spark 贴上了 " 闭源 " 标签,连 API 都暂时只向少数指定合作伙伴开放预览。
很明显,扎克伯格急了,他不求名声了,只求能拿出一款真正能打、能收回成本的顶尖产品。
这笔账他算得很清楚:反正 2026 年光 AI 相关的资本支出就要烧掉 1150 亿到 1350 亿美元,这次,必须确保每一分钱都砸在刀刃上。
偏科的「视觉天才」
砸了这么多钱,挖了这么多大牛,交出的 Muse Spark 到底成色如何?
Meta 这次表现得格外老实,不再像 Llama 4 时代那样大肆鼓吹 " 遥遥领先 ",反而在官方博客里坦率地列出了一张优缺点分明的成绩单。
这种老实人的态度,反倒让人觉得,这回怕是真的有点东西了。

先看让 Meta 扬眉吐气的长板。
在医疗和视觉多模态这块,Muse Spark 简直是 " 开挂 " 般的存在。
在极高难度的医学开放式问答评测 HealthBench Hard 中,Muse Spark 直接干到了 42.8 分,而隔壁 GPT-5.4 只有 40.1 分,Gemini 3.1 Pro 更是可怜的 20.6 分,直接被拉开两到三倍的差距。
凭什么这么强?
Meta 拉着超过 1000 名专业医生合作整理训练数据,等于给模型配备了一个庞大的顶级专家顾问团做特训。
别人家 AI 还在看百度百科,Muse Spark 已经把协和专家的会诊记录背下来了。
这还没完,在科研论文图表的深度理解测试(CharXiv Reasoning)中,Muse Spark 以 86.4 的高分力压 GPT-5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2,稳坐头把交椅。
你随便甩给它一张复杂的医学影像或者科学图表,它都能像资深研究员一样给你掰扯得明明白白。
更让人心动的是它的应用场景。官方放出的案例里,只要对着食物拍张照片,Muse Spark 就能分析出所有食物的分别的卡路里。
吃炸鸡前拍一下热量,从开心地吃变成了心惊胆战地吃 ......

还能识别出你的瑜伽动作,指出正在发力的肌群并纠正姿态。
请健身私教的钱这不就省下来了!

甚至连咖啡机它都会用!

我都不敢想,Muse Spark 要是应用在 AI 眼镜上会有多爽 ......
然而,上帝打开一扇门,往往也会关上一扇窗。在纯逻辑推理和代码编程这块,Muse Spark 的表现就没那么 " 神 " 了。
在 ARC AGI 2 抽象推理测试中,它仅拿到 42.5 分,被 Gemini 3.1 Pro(76.5 分)和 GPT-5.4(76.1 分)甩开了一个巨大的身位。在软件工程实测(SWE-bench Pro)中,它的通过率(52.4%)也略逊于 GPT-5.4 的 57.7%。
简单来说,Muse Spark 就像个严重 " 偏科 " 的天才少年,做数学奥赛卷子(编程推理)有点吃力,但给医学博士当答辩评委(视觉医疗)绰绰有余。
这种鲜明的性格特征,也让外界看懂了 Meta 的新打法。
不追求面面俱到的 " 六边形战士 ",而是先在自己有绝对优势的垂直领域扎下根来。
逻辑不够,眼睛来凑,先帮大家把现实世界里的麻烦事儿解决了再说。
AI 学会压缩思维,才是真正的降维打击
而抛开那些花里胡哨的跑分,Muse Spark 背后真正可怕的地方,其实藏在 Meta 公布的一项技术数据里。
Meta 官方博客明确指出:在新重建的技术栈下,Muse Spark 达到与上一代 Llama 4 Maverick 同等性能水平所需的计算量,减少了超过一个数量级。这可是 10 倍以上的效率跃升。

不是优化了百分之二三十,而是直接砍掉了一个零。
在算力就是金钱的 AI 军备竞赛中,这几乎等于用对手造一发子弹的预算造出了一颗原子弹。
怎么做到的?这就要提到 MSL 团队在这次发布中反复强调的一项核心技术——「思维压缩」(Thought Compression)。
听起来很玄乎,其实原理很巧妙,在强化学习训练阶段,团队引入了一种 " 思考时间惩罚 " 机制。
简单说就是,模型回答问题时如果啰里啰嗦想太久,就给它 " 扣分 "。在这种压力下,模型被迫进化,学会了用更少的推理 token、更短的逻辑链条,去解决同样的复杂问题,而且准确率不降反升。
这就好比一个经验丰富的外科医生和一个还在翻教科书的新手,前者在脑子里过一遍就知道怎么下刀,后者得把整本教材默念一遍才敢动手。
而 MSL 团队还发现了一个更有趣的 " 相变 " 现象,模型在学会精简思考后,又会在此基础上适度延长推理,实现效率和性能的动态平衡。
这是一种更高阶的智能,不仅知道答案,还知道 " 怎么最省力地找到答案 "。
配合这个理念,Muse Spark 还推出了多 Agent 并行推理的「沉思模式」(Contemplating Mode)。

传统的推理模式是让一个模型在那闷头使劲想(延迟高),而 Muse Spark 是同时拉起好几个子智能体,各自处理不同维度的信息,最后汇总。
在相近的响应时间内,这种 " 群殴 " 式的打法让它在 Humanity ‘ s Last Exam 这类地狱难度的评测中,跑出了 58% 的好成绩,直接把 GPT-5.4 Pro(43.9%)和 Gemini Deep Think(48.4%)按在地上摩擦。
扎克伯格在 Facebook 上发帖介绍时说,这不仅仅是一款智能助手,更是 " 在个人超级智能相关领域表现尤为突出 " 的新物种。
这句话的潜台词是:Meta 不再满足于做一个对话机器人,而是要造一个真正能帮你看病、做饭、规划生活的 " 全能外挂 "。而且,他们正在用一套更聪明、更省钱的方式去实现它。
说实话,Muse Spark 算不上一个完美无缺的 " 六边形战士 ",它的编程能力还有待打磨,抽象推理也与顶流存在差距。
但 TA 用 9 个月的时间,硬生生把 Meta 从 Llama 4 的舆论泥潭里拽了出来,重新回到了能与 GPT-5.4、Gemini 3.1 Pro 同场竞技的第一梯队。
对于扎克伯格和这支 " 华人天团 " 来说,Muse Spark 更像是一个宣言。
那个靠开源攒口碑的 Meta 已经翻篇了,而一个更务实、更有技术野心的新 Meta,才刚刚开始热身。


登录后才可以发布评论哦
打开小程序可以发布评论哦