Nature重磅：所有benchmark都错了？普林斯顿、剑桥、微软这样重塑AI评估

确保人工智能（AI）的安全与有效应用，关键在于准确理解并预测其在新任务中的表现。然而，现有基准测试方法在解释性与预测性方面存在明显局限，难以应对日益复杂的通用 AI 系统。

日前，来自普林斯顿大学、剑桥大学、微软亚洲研究院 ( MSRA ) 的研究团队及其合作者在权威学术期刊 Nature 上提出了一套面向 AI 评估的 " 通用量表 "（general scales）。

他们构建了包含 18 个维度的通用能力量表，通过量化任务的需求画像与模型的能力画像，不仅有效识别了现有评测基准中存在的构念效度缺失问题，更在未见过的任务实例及新基准上展现出了优越的性能预测能力，为 AI 系统的可靠评估与部署提供了科学依据。

论文链接：https://www.nature.com/articles/s41586-026-10303-2

研究方法

为了解决任务需求与模型能力之间缺乏统一度量标准的问题，研究团队引入了一套通用量表体系，旨在将不同的任务需求和模型能力反映在相同的维度上进行直接比较。

图 | 当前人工智能评估范式面临的挑战诊断、该研究提出的方法学解决方案所揭示的相关新发现，以及新方法学的潜在应用。

该体系确定了 18 个通用维度，涵盖了广泛的认知能力和知识领域。这些维度具有明确的层次结构，具体包括反映基础认知过程的元素能力、涵盖科学专业领域的知识维度，以及处理非认知需求的维度，例如任务的典型性、体量和不可猜测性，从而确保评测体系的全面性和结构化。

在具体的实施流程中，研究团队首先通过设计 18 个精细化的评分标准，对测试实例进行系统化标注，生成能够精确界定任务实际测量内容的需求画像。在此基础上，通过分析模型在不同需求水平下的表现曲线，进一步量化模型在各个维度上的具体能力值，从而形成能够细致界定模型优势与局限的能力画像。

为保证这一方法的可扩展性，研究采用大语言模型（LLM）作为标注器执行自动化标注，同时通过人类专家的验证以及统计分析，确保了标注结果与人类判断之间具有高度的一致性和准确性，从而在效率与质量之间取得了平衡。

研究发现

基于通用量表体系和自动化评估流程，研究团队对包含 15 个大语言模型和 20 个基准测试的大规模数据集进行了系统性的实证分析。这一过程在三个关键维度上取得了突破性成果：

发现一：基准测试测量内容的精准解析

利用需求画像，研究团队对 20 个主流基准测试在 18 个维度上的分布情况进行了深入分析。结果显示，许多基准测试在测量目标能力的同时，往往对非目标维度也提出了较高需求，导致测量结果受到混杂因素影响。

此外，部分基准测试在声称测量的维度上，其需求水平分布过于狭窄，无法有效区分不同能力的模型。这一分析揭示了现有基准测试未能完全测量其所声称的能力，从而解释了为何不同基准测试的结果常出现相互矛盾的现象。

图 | 基于 ADeLe 中 20 个基准数据子集的敏感性与特异性分析。

发现二：模型能力的精确量化与差异化分析

通过对 15 个大语言模型的测试，研究团队生成了各模型的 18 维能力画像。差异分析表明，知识类维度的能力水平与模型参数量呈现正相关，而推理类维度在采用思维链的推理模型中则表现出显著提升。

更重要的是，该方法能够明确指出模型在特定任务上的失败是由于缺乏哪一种具体能力，而非笼统地归结为模型整体性能不足，从而提供了具有针对性的诊断信息。

图 | 15 个大语言模型的能力分布曲线。

发现三：新任务场景下的性能预测能力

研究进一步验证了利用任务的需求水平作为特征，预测模型在未见过的实例及新基准测试上表现的能力。对比结果显示，相比于基于文本嵌入的基线模型，基于通用量表的预测模型在分布内和分布外场景下均表现出更高的准确率。

特别是在分布外的新任务上，该方法展现了更强的鲁棒性和泛化能力。这一特性具有重要的应用价值，不仅可以辅助系统根据任务需求预测结果，选择最适合处理该任务的模型，还能有效预测模型在特定高风险场景下的失败概率，从而辅助制定更为精准的安全策略。

讨论与展望

该框架提供了一套独立于特定模型群体和基准测试的测量标准，在快速发展的 AI 系统中展现出更好的稳定性和可解释性。由于需求和能力被定义为独立的属性，不依赖于当前流行的基准或模型群体，这种测量方法在应对基准饱和（saturation）和模型快速迭代时依然保持有效，避免了因模型或基准分布变化而导致的结果失效。

尽管取得了显著进展，研究仍存在一定的局限性。当前版本的 DeLeAn v1.0 规则主要针对语言任务设计，尚未完全涵盖导航等其他维度，也暂时排除了多模态系统和 Agent 等其他 AI 范式。此外，随着 AI 技术的快速进步，当前测试组合（battery）中较少的高难度 5 级以上项目样本需要进一步补充，以保持评估标准在未来挑战中的有效性。

针对上述局限及未来方向，研究团队制定了清晰的后续发展计划。

例如，研究团队计划扩展评估维度，扩大覆盖范围，纳入更多系统类型。同时，在技术层面，他们致力于进一步提高预测能力，特别是在分布外的预测准确性。最后，针对未来可能出现的更开放或更具代理性的任务，研究将探索更先进的自动评分机制，以适应更复杂的评估需求。

作者：王跃然

如需转载或投稿，请直接在本文章评论区内留言。

宙世代

一起剪

相关标签