钮祜禄·Meta闭源归来，时代追上了李彦宏？

文 | 超前实验室，作者｜青苹吹果

时隔一年，钮祜禄 · 扎，强势归来！

Meta 全新大模型 Muse Spark 正式上线，内部代号 Avocado。

这个 " 牛油果 "，来头可不小。

TA 不仅是 Meta 超级智能实验室（MSL）成立 9 个月以来的首个成果，更是扎克伯格在经历 Llama 4 惨烈翻车后，亲手砸烂原有摊子、豪掷逾 140 亿美金进行组织与战略大洗牌之后，递呈市场的第一张答卷。

更令人意外的是策略上的彻底转向。那个曾高喊 " 开源对抗闭源 " 的 Meta，这次直接给 Muse Spark 贴上了 " 闭源 " 标签，连 API 都暂时只向少数指定合作伙伴开放预览。

这让我想起 2024 年那场沸沸扬扬的 " 开源与闭源 " 之争，当时李彦宏大跳预言家，一口咬定开源其实是一种智商税。" 当你理性地去想，大模型能够带来什么价值，以什么样的成本带来价值的时候，就会发现，你永远应该选择闭源模型。闭源模型一定比开源模型更强大，推理成本更低。"

随后几年，开源生态蓬勃发展，社区热情高涨。不少人以 " 开源胜利 " 为由，调侃李彦宏 " 判断失误 "" 被时代打脸 "。一时间，闭源似乎成了保守与封闭的代名词。

不过，风水轮流转，时代和老扎一起，再一次追上了老李。

消息一出，资本市场也瞬间做出了最诚实的反应。

周三当天，Meta 的股价像坐了火箭，盘中一度涨超 10%，最终以超过 6% 的涨幅收盘，总市值稳稳站在 1.55 万亿美元的高位。

为什么一款模型发布能有如此巨大的能量？

懂行的人一眼就看出，Muse Spark 背后藏着的，是 Mate 破釜沉舟的自我革命。

全部推翻！在 " 废墟 " 中重建高楼

要理解今天这款模型的战略意义，先要知道它诞生于怎样的一地鸡毛之中。

去年春天，被寄予厚望的 Llama 4 发布后，很快遭遇了严重的信誉危机。

社区质疑声不断，随后更是有爆料直指 Meta 在基准测试中动了手脚，拿着针对特定任务微调的 " 特供版 " 去刷榜，而公开给普通用户的版本表现完全是另一回事。

拿精修图相亲，结果见面发现是 " 照骗 "。

这件事对 Meta AI 品牌的伤害是致命的，甚至图灵奖得主、Meta 前首席科学家 Yann LeCun 在离职后也亲口承认，Llama 4 的测试结果 " 确实被修饰了一点 "。

这件事彻底点燃了扎克伯格的怒火。

据外媒报道，他 " 对所有相关人员失去了信心 "，随后直接架空了整个生成式 AI 团队，大批人马离开。

这不仅仅是某个模型的失败，更意味着过去那条从模型架构到研发流程，从开源路线到组织文化的路，可能都走不通了。

扎克伯格面临的选择很残酷，要么继续修修补补，要么全部推翻，在废墟上重建。

他选了后者，而且干得非常彻底。

2025 年夏天，扎克伯格做出了一笔震惊硅谷的交易，以高达 143 亿美元的天价拿下数据标注巨头 Scale AI 49% 的无投票权股份。

但更关键的是这笔交易的核心，时年不到 30 岁的华裔创始人 Alexandr Wang（亚历山大 · 王）被直接请进 Meta，出任首席 AI 官，统管全新组建的 Meta 超级智能实验室（MSL）。

这个年轻人什么来头？MIT 辍学、19 岁创立 Scale AI、26 岁就跻身亿万富豪行列。

扎克伯格对他的评价是：" 同辈创业者中最杰出的一位，深刻理解超级智能的历史重要性 "。

而这位年轻舵手上任后的第一把火，就是烧向旧体系，从 OpenAI、谷歌 DeepMind、Anthropic 等竞争对手那里，以天价薪酬挖来了一整支 " 复仇者联盟 "。

翻看 MSL 首批 11 人名单，你会惊讶地发现，7 位核心研究员都是华人背景。

浙大校友毕树超（GPT-4o 语音模式与 o4-mini 共同创建者）、清华校友赵晟佳（ChatGPT 到 o3 的核心成员）、中科大校友于佳慧（前 OpenAI 感知团队负责人）……再加上思维链提出者 Jason Wei、扩散模型核心人物宋飏等业内顶尖高手。

这支被戏称为 " 亿元天团 " 的队伍，目标只有一个：从零开始，重写 Meta 的 AI 命运。

很明显，扎克伯格急了，他不求名声了，只求能拿出一款真正能打、能收回成本的顶尖产品。

这笔账他算得很清楚：反正 2026 年光 AI 相关的资本支出就要烧掉 1150 亿到 1350 亿美元，这次，必须确保每一分钱都砸在刀刃上。

偏科的「视觉天才」

砸了这么多钱，挖了这么多大牛，交出的 Muse Spark 到底成色如何？

Meta 这次表现得格外老实，不再像 Llama 4 时代那样大肆鼓吹 " 遥遥领先 "，反而在官方博客里坦率地列出了一张优缺点分明的成绩单。

这种老实人的态度，反倒让人觉得，这回怕是真的有点东西了。

先看让 Meta 扬眉吐气的长板。

在医疗和视觉多模态这块，Muse Spark 简直是 " 开挂 " 般的存在。

在极高难度的医学开放式问答评测 HealthBench Hard 中，Muse Spark 直接干到了 42.8 分，而隔壁 GPT-5.4 只有 40.1 分，Gemini 3.1 Pro 更是可怜的 20.6 分，直接被拉开两到三倍的差距。

凭什么这么强？

Meta 拉着超过 1000 名专业医生合作整理训练数据，等于给模型配备了一个庞大的顶级专家顾问团做特训。

别人家 AI 还在看百度百科，Muse Spark 已经把协和专家的会诊记录背下来了。

这还没完，在科研论文图表的深度理解测试（CharXiv Reasoning）中，Muse Spark 以 86.4 的高分力压 GPT-5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2，稳坐头把交椅。

你随便甩给它一张复杂的医学影像或者科学图表，它都能像资深研究员一样给你掰扯得明明白白。

更让人心动的是它的应用场景。官方放出的案例里，只要对着食物拍张照片，Muse Spark 就能分析出所有食物的分别的卡路里。

吃炸鸡前拍一下热量，从开心地吃变成了心惊胆战地吃 ......

还能识别出你的瑜伽动作，指出正在发力的肌群并纠正姿态。

请健身私教的钱这不就省下来了！

甚至连咖啡机它都会用！

我都不敢想，Muse Spark 要是应用在 AI 眼镜上会有多爽 ......

然而，上帝打开一扇门，往往也会关上一扇窗。在纯逻辑推理和代码编程这块，Muse Spark 的表现就没那么 " 神 " 了。

在 ARC AGI 2 抽象推理测试中，它仅拿到 42.5 分，被 Gemini 3.1 Pro（76.5 分）和 GPT-5.4（76.1 分）甩开了一个巨大的身位。在软件工程实测（SWE-bench Pro）中，它的通过率（52.4%）也略逊于 GPT-5.4 的 57.7%。

简单来说，Muse Spark 就像个严重 " 偏科 " 的天才少年，做数学奥赛卷子（编程推理）有点吃力，但给医学博士当答辩评委（视觉医疗）绰绰有余。

这种鲜明的性格特征，也让外界看懂了 Meta 的新打法。

不追求面面俱到的 " 六边形战士 "，而是先在自己有绝对优势的垂直领域扎下根来。

逻辑不够，眼睛来凑，先帮大家把现实世界里的麻烦事儿解决了再说。

AI 学会压缩思维，才是真正的降维打击

而抛开那些花里胡哨的跑分，Muse Spark 背后真正可怕的地方，其实藏在 Meta 公布的一项技术数据里。

Meta 官方博客明确指出：在新重建的技术栈下，Muse Spark 达到与上一代 Llama 4 Maverick 同等性能水平所需的计算量，减少了超过一个数量级。这可是 10 倍以上的效率跃升。

不是优化了百分之二三十，而是直接砍掉了一个零。

在算力就是金钱的 AI 军备竞赛中，这几乎等于用对手造一发子弹的预算造出了一颗原子弹。

怎么做到的？这就要提到 MSL 团队在这次发布中反复强调的一项核心技术——「思维压缩」（Thought Compression）。

听起来很玄乎，其实原理很巧妙，在强化学习训练阶段，团队引入了一种 " 思考时间惩罚 " 机制。

简单说就是，模型回答问题时如果啰里啰嗦想太久，就给它 " 扣分 "。在这种压力下，模型被迫进化，学会了用更少的推理 token、更短的逻辑链条，去解决同样的复杂问题，而且准确率不降反升。

这就好比一个经验丰富的外科医生和一个还在翻教科书的新手，前者在脑子里过一遍就知道怎么下刀，后者得把整本教材默念一遍才敢动手。

而 MSL 团队还发现了一个更有趣的 " 相变 " 现象，模型在学会精简思考后，又会在此基础上适度延长推理，实现效率和性能的动态平衡。

这是一种更高阶的智能，不仅知道答案，还知道 " 怎么最省力地找到答案 "。

配合这个理念，Muse Spark 还推出了多 Agent 并行推理的「沉思模式」（Contemplating Mode）。

传统的推理模式是让一个模型在那闷头使劲想（延迟高），而 Muse Spark 是同时拉起好几个子智能体，各自处理不同维度的信息，最后汇总。

在相近的响应时间内，这种 " 群殴 " 式的打法让它在 Humanity ‘ s Last Exam 这类地狱难度的评测中，跑出了 58% 的好成绩，直接把 GPT-5.4 Pro（43.9%）和 Gemini Deep Think（48.4%）按在地上摩擦。

扎克伯格在 Facebook 上发帖介绍时说，这不仅仅是一款智能助手，更是 " 在个人超级智能相关领域表现尤为突出 " 的新物种。

这句话的潜台词是：Meta 不再满足于做一个对话机器人，而是要造一个真正能帮你看病、做饭、规划生活的 " 全能外挂 "。而且，他们正在用一套更聪明、更省钱的方式去实现它。

说实话，Muse Spark 算不上一个完美无缺的 " 六边形战士 "，它的编程能力还有待打磨，抽象推理也与顶流存在差距。

但 TA 用 9 个月的时间，硬生生把 Meta 从 Llama 4 的舆论泥潭里拽了出来，重新回到了能与 GPT-5.4、Gemini 3.1 Pro 同场竞技的第一梯队。

对于扎克伯格和这支 " 华人天团 " 来说，Muse Spark 更像是一个宣言。

那个靠开源攒口碑的 Meta 已经翻篇了，而一个更务实、更有技术野心的新 Meta，才刚刚开始热身。

宙世代

一起剪

相关标签