量子位 昨天
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

OpenAI 承认 Claude 是最好的了(狗头)。

刚刚开源的新基准测试 PaperBench,6 款前沿大模型驱动智能体 PK 复现 AI 顶会论文,新版 Claude-3.5-Sonnet 显著超越 o1/r1 排名第一。

与去年 10 月 OpenAI 考验 Agent 机器学习代码工程能力 MLE-Bnch 相比,PaperBench 更考验综合能力,不再是只执行单一任务。

具体来说,智能体在评估中需要复刻来自 ICML 2024 的论文,任务包括理解论文、编写代码和执行实验。

最终成绩如下:

Claude-3.5-Sonnet 断崖式领先,第二名 o1-high 分数只有第一的 60%,第三名 DeepSeek-R1 又只有第二名的一半。

此外 GPT-4o 超过了推理模型 o3-mini-high 也算一个亮点。

除了 AI 之间的 PK, OpenAI 这次还招募顶尖的机器学习博士对比 o1。

虽然最终结论是 AI 在复现顶会论文上还无法超越人类,但展开时间轴发现,在工作时间 1-6 小时内 Ai 的进度还是比人类要快的。

12-24 小时阶段 AI 与人类的进度相当,人类需要工作 24-48 小时才能超过 AI。

有创业者称赞 OpenAI 这波真的 Open 了,而且不避讳竞争对手的出色表现,咱们科技圈就需要这种精神。

Agent 复现顶会论文

PaperBench 选取 20 篇 ICML 2024 Spotlight 和 Oral 论文,要求 AI 创建代码库并执行实验,复制论文成果,且不能使用原作者代码。

OpenAI 与每篇论文的原作者共同制定详细评分标准,总共包含 8316 个可单独评分的任务。

开卷考试,也就是允许 Agent 有限联网搜索,把原论文代码库和其他人复现的代码库拉黑名单。

完整评估流程分为 3 个阶段:

Agent 在 ubuntu 容器中创建并提交复制论文的代码库。

在具有 GPU 访问权限的新容器中执行代码

裁判模型在第三个容器中给复现结果打分

评估时用分级标准打分,按叶节点、父节点逐级评分,主要指标是所有论文的平均复制分数。

评分也是由大模型自动执行,实验发现 o3-mini 当裁判的性价比最高。

给每篇论文评分花费 66 美元,比聘请人类专家当裁判要便宜,速度也更快。

运行评估所需的代码和数据、Docker 镜像等正在 GitHub 逐步开源。

One More Thing

在论文的附录中,OpenAI 还给出了让 AI 复现顶会论文的 Prompt,有需要的朋友可以学习一下。

BasicAgent System Prompt:

强调智能体要完整复制论文,明确最终目标是让运行 reproduce.sh 能复现论文所有指标

指导智能体使用工具逐步完成任务,避免一次性执行过多操作

要求智能体充分利用时间优化解决方案,而不是急于提交初步结果

IterativeAgent System/Continue Prompt:

强调时间很充裕,要逐步完成任务

每一步都提醒智能体使用可用的工具

强调代码编写规范

Task Instructions:

明确任务、可用资源、提交要求等多方面信息

给出代码示例

最后再次强调权限、考试时间等,还提醒 AI 要真的去执行复现,而不只是写一个计划。

就有点像人类准考证上写的考场须知了。

论文地址:

https://openai.com/index/paperbench/

参考链接:

[ 1 ] https://x.com/OpenAI/status/1907481494249255193

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

速抢席位!中国 AIGC 产业峰会观众报名通道已开启  ‍♀️

最新嘉宾曝光啦    百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领域创变者将齐聚峰会,让更多人用上 AI、用好 AI,与 AI 一同加速成长~

4 月 16 日,就在北京,一起来深度求索 AI 怎么用  

一键星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器学习 ai 开源 ubuntu 黑名单
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论