量子位 12-12
GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

红色警报拉响,OpenAI 是真急了:

30 天,GPT-5.2 系列紧接着 GPT-5.1 而来,这次还专门强化了打工能力。

这是 GPT-5.1 Thinking 和 GPT-5.2 Thinking 做人力资源表格的对比:

虽然版本号只加了 0.1,但是在多个实用领域都更强了:做表格、做 PPT、写代码、理解长文档、调用工具、处理复杂多步骤项目……

视觉理解能力也大幅提升,GPT-5.2 能准确标记出更多主板上的元件。

这是 GPT-5.2 做的网页版波浪模拟器:

如果你遇到航班延误、又错过转机、需要当地过夜以及需要特殊医疗座位,听起来就很头疼。

但 GPT-5.2 安排好了一切:重新订机票、安排特殊座位和赔偿。

ARC-AGI 也在第一时间发布了测试结果。

一年前的 o3 ( High ) 在 ARC-AGI-1 测试中得分 88%,平均每项任务成本为 4500 美元。

今天的 GPT-5.2 Pro ( X-High ) ,最新 SOTA 得分为 90.5%,平均任务成本仅为 11.64 美元,在一年内效率提高了约 390 倍。

同时超过了谷歌 Gemini 3 Pro 的对应版本(绿色点),也算扳回一局。

GPT5.2 发布的这一天,也是 OpenAI 成立十周年,官方还做了个小视频来回顾 10 年来的进展。

拆解 GPT-5.2 各项能力高经济价值任务

在 GDPval 测试中,涵盖美国 GDP 前九大产业中的 44 个职业领域,完成人类需要 4-8 小时才能完成的任务。

在人类评委打分下,GPT-5.2 Thinking 与人类专家相比有 71% 的胜率,GPT-5.2 Pro 还能更高一些。

而且速度是人类专家的 11 倍以上,成本不到人类专家的 1%。

在投行分析师的电子表格建模任务上,GPT-5.2 Thinking 平均每项任务得分相比 GPT-5.1 提升了 9.3%,从 59.1% 上升到 68.4%。这些任务包括为财富 500 强公司搭建三表联动模型、构建杠杆收购模型等。

提示:您是一名投资银行分析师,刚刚接到一项任务,需要完成一份瀑布式分析,以了解创始人及现有投资者的所有权和回报情况。您的客户是一家正在考虑 C 轮融资的初创公司。

请查收附件中的模板,您需要对其进行修改。我在 G 列中添加了必要的假设。C 列的名称在普通股部分重复出现,以便于索引。假设包括退出时的股权、系列投资金额、基金所有权、认股权证、清算优先权、转换价格、普通股稀释后股份数和行权价格。假设种子轮、A 轮和 B 轮均为同等权益的非参与性优先股(即,这些轮次的投资者享有同等待遇;对借款人的资产拥有同等的索偿权)

在审查一份特别优秀的成果时,一位 GDPval 评委表示:

在输出质量上令人兴奋且显著的飞跃…… [ 它 ] 看起来像是由一家专业公司的员工完成的,两份交付成果的布局设计和建议都出人意料地出色,尽管其中一份仍存在一些小错误需要纠正。

要在 ChatGPT 中使用新的做表格和 PPT 能力,需要充值 Plus、Pro、Business 或 Enterprise 套餐,选择 GPT-5.2 Thinking 或 Pro 版本 。生成复杂的内容可能需要几分钟时间。

代码能力

GPT-5.2 代码能力同样刷新纪录,在 SWE-bench Verified 上,得分达到 80%。

在 SWE-Bench Pro 这个更难的软件工程评测上,GPT-5.2 Thinking 拿下 55.6% 的新高。

这个评测不止测 Python,还包括 JavaScript、TypeScript 和 Go,更贴近真实工业场景。

早期测试者特别提到,GPT-5.2 在前端开发和复杂 UI 工作上明显更强,尤其是涉及 3D 元素的场景。

长上下文

长文档处理是这次升级的重头戏。

在 OpenAI 自制的大海捞针 MRCRv2 评测中,GPT-5.2 Thinking 成为首个在 256k 上下文长的 4 针版(4-needle variant)上达到接近 100% 准确率的模型。

不过 8 针版性能还是会随上下文长度明显下降。

对于需要超越最大上下文窗口进行思考的任务,GPT-5.2 Thinking 兼容简洁回复模式,能够处理更多工具密集型、长时间运行的工作流。

视觉理解

视觉能力的提升同样显著。

在科学论文图表理解上,GPT-5.2 Thinking 的错误率大约降低了一半。

更关键的是,它对图像中元素的空间位置有了更强的把握。

在高分辨率图形面屏幕截图推理测试中,配合 Python 工具得分达到 86.3%。

如果禁用 Python 工具得分会低很多,OpenAI 建议在这样的视觉任务中通通启用工具。

工具调用

工具调用能力同样达到新高度,在 Tau2-bench Telecom 多轮交互电话客服场景评测上,GPT-5.2 Thinking 取得 98.7% 的成绩。

Tau2-bench Retail 零售场景也达到 82%。

这些成绩意味着更强大的端到端工作流程,例如解决客户支持案例、从多个系统中提取数据、运行分析以及生成最终输出,且各步骤之间的故障更少。

科学能力

OpenAI 一直希望 AI 能加速科学研究,这次他们相信 GPT-5.2 Pro 和 GPT-5.2 Thinking 是目前世界上最适合辅助科学家的模型。

在 GPQA Diamond 研究生水平的问答评测上,GPT-5.2 Pro 拿下 93.2%,GPT-5.2 Thinking 紧随其后达到 92.4%。

在专家级数学评测 FrontierMath(Tier 1-3)上,GPT-5.2 Thinking 以 40.3% 的解题率创下新纪录。

官方还透露了一个实际案例:

研究人员使用 GPT-5.2 Pro 探索了统计学习理论中的一个开放问题,在一个狭窄、明确的设定下,模型提出了一个证明,随后被作者验证并经过同行评审。

事实准确性方面,GPT-5.2 Thinking 的幻觉问题相比 GPT-5.1 从 8.8% 减少到 6.2%。

不过 OpenAI 也提示模型仍不完美,关键内容还是需要人工复核。

One More Thing

自从 Meta 疯狂挖人以来,OpenAI 都很少在研究进展文章后面附上贡献者列表了,直接统一署名 OpenAI 了事。

不过从开发者相互祝贺的推文中,还是可以挖出 GPT-5.2 的几位核心团队成员:多为 2024 年之后加入 OpenAI 的新面孔,而且多是数学专业出身。

Yu Bai:北大数院校友、斯坦福统计学博士,2024 年 5 月加入 OpenAI。

Yaodong Yu:UC 伯克利博士毕业,2024 年 9 月加入 OpenAI。

Yufeng Zhang:本科中科大数学系、西北大学博士、字节前研究员,2024 年底加入 OpenAI

梅松:北大数院校友、斯坦福计算与数学工程博士、UC 伯克利助理教授,2025 年 5 月暂离学校加入 OpenAI。

Ofir Nachum:MIT CS 硕士毕业,前谷歌大脑研究员,2023 年加入 OpenAI。

每当外界觉得 OpenAI 进展不及预期的时候,总有新的人才带来新的惊喜。

参考链接:

[ 1 ] https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 准确 航班 医疗 人力资源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论