Harness要不要做？斯坦福的回答是：让AI自己做

同一个模型，换一套 Harness，编程基准分就翻倍了，行业为此吵了两个月，现在斯坦福说：不用吵了。

Harness 火了，但也吵起来了

2026 年开年最热的 AI 工程概念，就是Harness。

它指的是模型之外的一切—— prompt 模板、上下文管理、检索策略、多步推理编排、工具调用逻辑。一句话概括：你怎么调用模型，和模型本身同样重要，甚至更重要。

OpenAI Codex 团队 5 个月写了 100 万行 Agent 代码后，得出的最大教训是 "Agent 不难，Harness 才难 "；SWE-Bench Mobile 论文中，同一个 Claude Opus 4.5 在不同 Harness 下成功率 2% 对 12%，差了 6 倍；LangChain 的编码 Agent 在 Terminal Bench 2.0 上，通过仅优化 Harness 而不修改底层模型，得分从 52.8% 提升至 66.5%，排名从第 30 跃升至第 5。

数据足够有说服力。Harness 这个概念迅速从学术圈破圈，成了产业界的高频词。

但一个概念一旦火了，争议就跟着来了。给这股 Harness 热泼冷水的，比如 OpenAI 的 Noam Brown，说 Harness 本质是拐杖，模型终将超越它——推理模型出来后，大量精心设计的 Agentic 系统一夜淘汰就是明证；Claude Code 团队也说，" 所有秘密武器在模型本身，追求最薄的包装 "。

Anthropic 的实践还提供了一个微妙的视角。他们先为 Opus 4.5 做了一套相当厚重的 Harness 方案—— GAN 式对抗架构、三 Agent 分工、sprint 合约；但 Opus 4.6 出来后，Harness 直接做了减法：去掉 sprint 分解、整体简化，从 6 小时 $200 降到 3.8 小时 $125。性能更好，成本更低。

这套操作被称为Build to Delete—— Harness 的厚度取决于模型当前的能力边界，模型变强了，对应 Harness 就该被剥离。

所以争论的本质是什么？不是 Harness 重不重要，因为数据已经回答了，而是Harness 不是一个静态的东西——它需要随模型迭代、随任务变化、随能力边界移动而持续演化。

斯坦福的 Yoonho Lee 团队和 MIT 的 Omar Khattab 看到了这个矛盾，然后给出了一个没想到的回答：

" 别争了。让 AI 自己来做自己的 Harness。"

Meta-Harness：一个 " 反智 " 的暴力方案

论文全称是 Meta-Harness: End-to-End Optimization of Model Harnesses，作者包括 Yoonho Lee、Chelsea Finn（Stanford）、Omar Khattab（MIT，DSPy 框架的创造者）等人。

核心思路的 " 反智 " 在于：让一个足够强的 coding Agent 自己一轮轮不断优化 Harness 来适配模型，过程中不压缩任何东西，全存下来，自己去翻阅、分析、总结，然后写出更好的 Harness 框架。

具体来说，每轮迭代产生的所有内容——候选 Harness 的完整源代码、逐样本执行轨迹、评分结果——全部以文件形式保存在一个结构化目录中。没有数据库，没有向量检索，就是最朴素的文件和文件夹。

然后，一个 coding Agent 被放进这个系统，任务只有一个：" 基于之前所有尝试的经验，写一个更好的 Harness。"

外层循环极其简洁：生成候选 → 评估 → 保存完整结果 → Agent 分析所有历史 → 生成新候选 → 重复。没有花哨的搜索算法，没有进化策略，没有梯度近似。搜索的全部 " 智能 " 来自 Agent 自身的代码理解和推理能力。

为什么现有方法不够

这个方案看起来朴素，但它解决了一个此前所有自动优化方法都没解决的问题：信息保留。

过去涌现的文本优化器—— Google 的 OPRO、TextGrad、DeepMind 的 AlphaEvolve ——有一个共同的致命缺陷：对历史反馈的压缩太激进了。有些方法完全没有记忆，每轮从零开始；有些只保留一个标量评分（比如，" 准确率 62%"）；有些把执行过程压缩成简短摘要。

这就好比让一个工程师 debug 复杂系统，但只告诉他 " 上一版代码得了 62 分 " ——没有日志、没有堆栈跟踪、没有错误样例。他怎么知道该改什么？

Meta-Harness 的做法恰好相反。每轮评估能产生1000 万 tokens的诊断信息——包括每个样本的输入、模型输出、正确答案、中间推理步骤等完整执行轨迹。

Agent 不是被喂了一段摘要，而是真的在 " 做研究 " ——自主决定读哪些文件。论文统计，Agent 每轮中位数读取 82 个文件。它会看之前表现最好和最差的 Harness 源码，抽查特定样本的执行轨迹，发现 " 这类样本模型总是把 A 类判成 B 类 "，对比两个 Harness 的差异，推断哪个设计决策导致了性能变化。

这个过程，和一个优秀工程师做实验分析的 workflow 几乎一模一样——只不过读文件速度快几百倍，而且永远不会累。

为什么现在才可行

论文作者特别指出了一个时机问题：Meta-Harness 在 2026 年初才变得可行。原因很简单——它完全依赖 Coding Agent 在过去一年的质变式能力提升。两年前的 Agent 根本无法在包含数百个文件的目录中自主导航、做有意义的分析、并写出能跑通的代码。今天可以了。

这不只是一个方法论的突破，更是一个时机的故事。Agent 能力的提升，让一种原本 " 想法对但执行不了 " 的方案突然变成了现实。

三个战场，三种碾压

理论再漂亮，得拿数据说话。Meta-Harness 在三个差异巨大的任务上做了验证。

战场一：文本分类—— 4 次迭代抵别人 40 次

文本分类实验中，Meta-Harness 拿下"48.6% 准确率 "，比此前最强手工基线 ACE 高出7.7 个百分点（ACE 为 40.9%）。更值得注意的是效率：上下文 token 用量 11.4K，ACE 需要 50.8K ——少了将近 4 倍。效果更好，成本更低。

收敛速度同样惊人：仅需4 次评估迭代，就能匹配需要 40 次评估的竞品方法。Agent 每轮从完整轨迹中提取的信息密度，远超那些只能看到分数或摘要的优化器。

论文还做了分布外泛化测试——将在 5 个数据集上搜索到的最优 Harness 直接迁移到 9 个未见数据集，结果同样优于 ACE。这说明 Meta-Harness 找到的不是针对特定数据集的 trick，而是更好的框架设计。

战场二：数学推理——自动发现人类没想到的路由策略

IMO 难度的检索增强数学推理任务上，Meta-Harness 自动发现了一个"4 路路由 BM25 检索策略 "——系统学会将数学题分为组合、几何、数论和默认四个类别，对每个类别使用差异化的检索参数。这种精细化路由设计，没有任何人类工程师事先指定过。

迁移能力同样值得关注：用 GPT-OSS-20B 搜索到的最优 Harness，零样本迁移到 5 个未见推理模型均有提升。这意味着好的框架设计对不同模型都有效—— Harness 优化和模型选择是正交的两个维度。换言之，你在 Harness 工程上的投入不会因为换了模型就打水漂。

战场三：编程 Agent ——超越人类 Harness 方案

在 Claude Haiku 4.5组别中，Meta-Harness 确实以 37.6% 拿到了组别第一，超越了所有已知的手工 Harness（如 Goose 和官方的 Claude Code）；在 Claude Opus 4.6组别中，Meta-Harness 以 76.4% 拿到组别第二。

Meta-Harness 在这个任务上还自主发现了一个关键 trick ——"Environment Bootstrapping"（环境自举 / 引导）：在 Agent 执行任务前，先自动运行 shell 命令收集沙箱环境快照（OS 版本、已安装软件包、目录结构等），注入初始 prompt。

这消除了 Agent 通常需要的 2 到 4 轮环境探索——不用再浪费推理步骤去看看目录里有什么。对 token 预算有限的编程 Agent 来说，省下这几轮等于直接提升了有效推理能力。没有人事先告诉系统要做这个优化，它是 Meta-Harness 在搜索过程中自己发现的。

消融实验：信息量就是关键杠杆

论文中给出了三种信息保留策略的对比，结果一目了然：

- 仅保留分数 → 中位准确率 34.6%

- 分数 + 摘要 → 34.9%

- 完整轨迹（Meta-Harness） → 50.0%

完整轨迹带来15 个百分点的提升，而摘要几乎没有帮助——甚至有时有害，因为压缩会丢掉看似琐碎但至关重要的诊断细节。

这对整个 "AI 优化 AI" 领域是一个值得反复咀嚼的结论：当 Agent 足够强大时，人为的预处理和压缩不是在帮忙，是在添乱。把原始信息全部交给 Agent，让它自己决定看什么、忽略什么，效果远比人类代劳好得多。

同一个 Bitter Lesson，两种解读

最后，让我们回到那场行业争论——把 Meta-Harness 放进去，事情变得非常有趣。

业界将 Noam Brown 的观点归入 Bitter Lesson 阵营，因为提到 Harness 是拐杖：AI 研究反复证明，依赖人类领域知识的精心设计终将被暴力计算碾平，所以别在框架工程上浪费时间，把赌注押在模型能力的持续增长上。

Meta-Harness 用的也是 Bitter Lesson：AI 研究反复证明，通用搜索击败精心手工设计——所以不要手工设计 Harness，让 AI 用通用搜索自己找最优解。它没有否认 Harness 重要，也没有否认模型会持续变强。它说的是：既然手工 Harness 终将被淘汰，那就让 AI 来接管。

简单来说，Noam Brown 的版本是 " 别费劲做 Harness 了 "，Meta-Harness 的版本是 " 别费劲手做 Harness 了 "。

Meta-Harness 实质上重新定义了这场争论的坐标系。Model 和 Harness 不是非此即彼的选择。当 Harness 优化本身被自动化后，两条路线自然收敛——模型变强了，Meta-Harness 搜出的最优 Harness 也会跟着变薄。Anthropic 手动执行的 Build to Delete，在这套框架下会自动发生。

这件事本身就是 Bitter Lesson 说的那种 " 更大的计算 " ——那种总会赢的力量。

论文团队在最后提出了一个更远的方向：Harness 与模型权重的协同进化。今天模型训练和框架设计还是两个独立过程。但如果 Harness 能被自动优化，未来的模型训练如何把 Harness 纳入优化循环？

巧的是，前阿里 Qwen 技术负责人林俊旸最近也在说类似的事。他在离职后发布的长文 "From Reasoning Thinking to Agentic Thinking" 里，把 Harness 的角色推到了更细分的位置——不只是推理时的运行框架，更应该是训练时的核心基础设施。Agent 在什么样的 Harness 环境里训练，决定了它能学到什么。

现在，斯坦福已经让 AI 接管了推理时的 Harness，那林俊旸瞄准的是训练时 Harness 呢？

这里有个耐人寻味的区别：推理时的 Harness，目标明确，跑分见高下，AI 比人快；训练时的 Harness，定义的是模型在这个环境里训完之后，整体能力有没有变强，这是一个长程、稀疏、很难归因的过程——这一层的搭建，恐怕还得是人来做。

方向有了，谁先动手？2026 年下半年的牌桌上，可能又多一道新题了。

宙世代

一起剪

相关标签