硅星人 04-01
Harness要不要做?斯坦福的回答是:让AI自己做
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

同一个模型,换一套 Harness,编程基准分就翻倍了,行业为此吵了两个月,现在斯坦福说:不用吵了。

Harness 火了,但也吵起来了

2026 年开年最热的 AI 工程概念,就是Harness。

它指的是模型之外的一切—— prompt 模板、上下文管理、检索策略、多步推理编排、工具调用逻辑。一句话概括:你怎么调用模型,和模型本身同样重要,甚至更重要。

OpenAI Codex 团队 5 个月写了 100 万行 Agent 代码后,得出的最大教训是 "Agent 不难,Harness 才难 ";SWE-Bench Mobile 论文中,同一个 Claude Opus 4.5 在不同 Harness 下成功率 2% 对 12%,差了 6 倍;LangChain 的编码 Agent 在 Terminal Bench 2.0 上,通过仅优化 Harness 而不修改底层模型,得分从 52.8% 提升至 66.5%,排名从第 30 跃升至第 5。

数据足够有说服力。Harness 这个概念迅速从学术圈破圈,成了产业界的高频词。

但一个概念一旦火了,争议就跟着来了。给这股 Harness 热泼冷水的,比如 OpenAI 的 Noam Brown,说 Harness 本质是拐杖,模型终将超越它——推理模型出来后,大量精心设计的 Agentic 系统一夜淘汰就是明证;Claude Code 团队也说," 所有秘密武器在模型本身,追求最薄的包装 "。

Anthropic 的实践还提供了一个微妙的视角。他们先为 Opus 4.5 做了一套相当厚重的 Harness 方案—— GAN 式对抗架构、三 Agent 分工、sprint 合约;但 Opus 4.6 出来后,Harness 直接做了减法:去掉 sprint 分解、整体简化,从 6 小时 $200 降到 3.8 小时 $125。性能更好,成本更低。

这套操作被称为Build to Delete—— Harness 的厚度取决于模型当前的能力边界,模型变强了,对应 Harness 就该被剥离。

所以争论的本质是什么?不是 Harness 重不重要,因为数据已经回答了,而是Harness 不是一个静态的东西——它需要随模型迭代、随任务变化、随能力边界移动而持续演化。

斯坦福的 Yoonho Lee 团队和 MIT 的 Omar Khattab 看到了这个矛盾,然后给出了一个没想到的回答:

" 别争了。让 AI 自己来做自己的 Harness。"

Meta-Harness:一个 " 反智 " 的暴力方案

论文全称是 Meta-Harness: End-to-End Optimization of Model Harnesses,作者包括 Yoonho Lee、Chelsea Finn(Stanford)、Omar Khattab(MIT,DSPy 框架的创造者)等人。

核心思路的 " 反智 " 在于:让一个足够强的 coding Agent 自己一轮轮不断优化 Harness 来适配模型,过程中不压缩任何东西,全存下来,自己去翻阅、分析、总结,然后写出更好的 Harness 框架。

具体来说,每轮迭代产生的所有内容——候选 Harness 的完整源代码、逐样本执行轨迹、评分结果——全部以文件形式保存在一个结构化目录中。没有数据库,没有向量检索,就是最朴素的文件和文件夹。

然后,一个 coding Agent 被放进这个系统,任务只有一个:" 基于之前所有尝试的经验,写一个更好的 Harness。"

外层循环极其简洁:生成候选 → 评估 → 保存完整结果 → Agent 分析所有历史 → 生成新候选 → 重复。没有花哨的搜索算法,没有进化策略,没有梯度近似。搜索的全部 " 智能 " 来自 Agent 自身的代码理解和推理能力。

为什么现有方法不够

这个方案看起来朴素,但它解决了一个此前所有自动优化方法都没解决的问题:信息保留。

过去涌现的文本优化器—— Google 的 OPRO、TextGrad、DeepMind 的 AlphaEvolve ——有一个共同的致命缺陷:对历史反馈的压缩太激进了。有些方法完全没有记忆,每轮从零开始;有些只保留一个标量评分(比如," 准确率 62%");有些把执行过程压缩成简短摘要。

这就好比让一个工程师 debug 复杂系统,但只告诉他 " 上一版代码得了 62 分 " ——没有日志、没有堆栈跟踪、没有错误样例。他怎么知道该改什么?

Meta-Harness 的做法恰好相反。每轮评估能产生1000 万 tokens的诊断信息——包括每个样本的输入、模型输出、正确答案、中间推理步骤等完整执行轨迹。

Agent 不是被喂了一段摘要,而是真的在 " 做研究 " ——自主决定读哪些文件。论文统计,Agent 每轮中位数读取 82 个文件。它会看之前表现最好和最差的 Harness 源码,抽查特定样本的执行轨迹,发现 " 这类样本模型总是把 A 类判成 B 类 ",对比两个 Harness 的差异,推断哪个设计决策导致了性能变化。

这个过程,和一个优秀工程师做实验分析的 workflow 几乎一模一样——只不过读文件速度快几百倍,而且永远不会累。

为什么现在才可行

论文作者特别指出了一个时机问题:Meta-Harness 在 2026 年初才变得可行。原因很简单——它完全依赖 Coding Agent 在过去一年的质变式能力提升。两年前的 Agent 根本无法在包含数百个文件的目录中自主导航、做有意义的分析、并写出能跑通的代码。今天可以了。

这不只是一个方法论的突破,更是一个时机的故事。Agent 能力的提升,让一种原本 " 想法对但执行不了 " 的方案突然变成了现实。

三个战场,三种碾压

理论再漂亮,得拿数据说话。Meta-Harness 在三个差异巨大的任务上做了验证。

战场一:文本分类—— 4 次迭代抵别人 40 次

文本分类实验中,Meta-Harness 拿下"48.6% 准确率 ",比此前最强手工基线 ACE 高出7.7 个百分点(ACE 为 40.9%)。更值得注意的是效率:上下文 token 用量 11.4K,ACE 需要 50.8K ——少了将近 4 倍。效果更好,成本更低。

收敛速度同样惊人:仅需4 次评估迭代,就能匹配需要 40 次评估的竞品方法。Agent 每轮从完整轨迹中提取的信息密度,远超那些只能看到分数或摘要的优化器。

论文还做了分布外泛化测试——将在 5 个数据集上搜索到的最优 Harness 直接迁移到 9 个未见数据集,结果同样优于 ACE。这说明 Meta-Harness 找到的不是针对特定数据集的 trick,而是更好的框架设计。

战场二:数学推理——自动发现人类没想到的路由策略

IMO 难度的检索增强数学推理任务上,Meta-Harness 自动发现了一个"4 路路由 BM25 检索策略 "——系统学会将数学题分为组合、几何、数论和默认四个类别,对每个类别使用差异化的检索参数。这种精细化路由设计,没有任何人类工程师事先指定过。

迁移能力同样值得关注:用 GPT-OSS-20B 搜索到的最优 Harness,零样本迁移到 5 个未见推理模型均有提升。这意味着好的框架设计对不同模型都有效—— Harness 优化和模型选择是正交的两个维度。换言之,你在 Harness 工程上的投入不会因为换了模型就打水漂。

战场三:编程 Agent ——超越人类 Harness 方案

Claude Haiku 4.5组别中,Meta-Harness 确实以 37.6% 拿到了组别第一,超越了所有已知的手工 Harness(如 Goose 和官方的 Claude Code);在 Claude Opus 4.6组别中,Meta-Harness 以 76.4% 拿到组别第二

Meta-Harness 在这个任务上还自主发现了一个关键 trick ——"Environment Bootstrapping"(环境自举 / 引导):在 Agent 执行任务前,先自动运行 shell 命令收集沙箱环境快照(OS 版本、已安装软件包、目录结构等),注入初始 prompt。

这消除了 Agent 通常需要的 2 到 4 轮环境探索——不用再浪费推理步骤去看看目录里有什么。对 token 预算有限的编程 Agent 来说,省下这几轮等于直接提升了有效推理能力。没有人事先告诉系统要做这个优化,它是 Meta-Harness 在搜索过程中自己发现的。

消融实验:信息量就是关键杠杆

论文中给出了三种信息保留策略的对比,结果一目了然:

- 仅保留分数 → 中位准确率 34.6%

- 分数 + 摘要 → 34.9%

- 完整轨迹(Meta-Harness) → 50.0%

完整轨迹带来15 个百分点的提升,而摘要几乎没有帮助——甚至有时有害,因为压缩会丢掉看似琐碎但至关重要的诊断细节。

这对整个 "AI 优化 AI" 领域是一个值得反复咀嚼的结论:当 Agent 足够强大时,人为的预处理和压缩不是在帮忙,是在添乱。把原始信息全部交给 Agent,让它自己决定看什么、忽略什么,效果远比人类代劳好得多。

同一个 Bitter Lesson,两种解读

最后,让我们回到那场行业争论——把 Meta-Harness 放进去,事情变得非常有趣。

业界将 Noam Brown 的观点归入 Bitter Lesson 阵营,因为提到 Harness 是拐杖:AI 研究反复证明,依赖人类领域知识的精心设计终将被暴力计算碾平,所以别在框架工程上浪费时间,把赌注押在模型能力的持续增长上。

Meta-Harness 用的也是 Bitter Lesson:AI 研究反复证明,通用搜索击败精心手工设计——所以不要手工设计 Harness,让 AI 用通用搜索自己找最优解。它没有否认 Harness 重要,也没有否认模型会持续变强。它说的是:既然手工 Harness 终将被淘汰,那就让 AI 来接管。

简单来说,Noam Brown 的版本是 " 别费劲做 Harness 了 ",Meta-Harness 的版本是 " 别费劲手做 Harness 了 "。

Meta-Harness 实质上重新定义了这场争论的坐标系。Model 和 Harness 不是非此即彼的选择。当 Harness 优化本身被自动化后,两条路线自然收敛——模型变强了,Meta-Harness 搜出的最优 Harness 也会跟着变薄。Anthropic 手动执行的 Build to Delete,在这套框架下会自动发生。

这件事本身就是 Bitter Lesson 说的那种 " 更大的计算 " ——那种总会赢的力量。

论文团队在最后提出了一个更远的方向:Harness 与模型权重的协同进化。今天模型训练和框架设计还是两个独立过程。但如果 Harness 能被自动优化,未来的模型训练如何把 Harness 纳入优化循环?

巧的是,前阿里 Qwen 技术负责人林俊旸最近也在说类似的事。他在离职后发布的长文 "From Reasoning Thinking to Agentic Thinking" 里,把 Harness 的角色推到了更细分的位置——不只是推理时的运行框架,更应该是训练时的核心基础设施。Agent 在什么样的 Harness 环境里训练,决定了它能学到什么。

现在,斯坦福已经让 AI 接管了推理时的 Harness,那林俊旸瞄准的是训练时 Harness 呢?

这里有个耐人寻味的区别:推理时的 Harness,目标明确,跑分见高下,AI 比人快;训练时的 Harness,定义的是模型在这个环境里训完之后,整体能力有没有变强,这是一个长程、稀疏、很难归因的过程——这一层的搭建,恐怕还得是人来做。

方向有了,谁先动手?2026 年下半年的牌桌上,可能又多一道新题了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

斯坦福 mit 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论