文汇 前天
上海“书生”大模型奥数高分夺金,解法“前所未见”让阅卷专家惊叹
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

数学奥赛犹如智慧皇冠上的明珠,是顶尖智力的竞技,也一度成为人工智能(AI)难以攻克的高地。在近日揭晓的全国中学生数学奥林匹克竞赛(CMO)决赛中,由上海人工智能实验室(上海 AI 实验室)研发的 " 书生 " 科学多模态大模型(Intern-S1)斩获 102 分的高分,不仅远超 78 分的金牌分数线,更跨过了 87 分的国家集训队入选线,位列大模型得分榜首。

这一突破标志着国产大模型在复杂逻辑推理方面迈出关键一步。上海 AI 实验室青年领军科学家陈恺认为,数学奥赛终于迎来 "AlphaGo 时刻 ",显示出人工智能在高难度代数、几何、数论、组合数学证明题领域的巨大潜力。

从 " 做对题 " 迈向 " 创造性解题 "

CMO 是中国最高规格的高中生数学奥林匹克竞赛,难度不亚于国际数学奥林匹克竞赛(IMO),试题以条件隐蔽、逻辑链条极长等著称,且所有题型均为证明题,相比解答题,对 AI 的挑战要大得多。本次 CMO 决赛的 700 多名参赛者中,首次纳入 AI 模型,堪称一场史无前例的 " 人机同考 ",双方面临的是相同的时长和阅卷标准。

最终," 书生 " 大模型展现出了惊人的思维能力。在全部 6 题中,有 4 题获得满分 21 分,另两题则因为 " 未证明最优性 "" 部分不严格 " 而分别得到 9 分。阅卷专家惊叹其表达方式 " 非常接近人类 "。

最震撼的是其中第 4 题的解答,这是一道涉及 30 种颜色、2100 张纸牌操作的复杂组合题。" 书生 " 模型不仅在规定时间内得出了正确结论,其解题思路被专家评价为 " 一个新的解法,巧妙的调整法,在学生的解法中没有见过 "。

未曾见过的解法,对 AI 来说,意味着它绝非 " 知识的搬运工 ",而是可以突破人类思维局限,从 " 做对题 " 迈向 " 创造性解题 "。而这一点,哪怕是对人类参赛者而言,这也是一个了不起的成就。

对于此次 " 书生 " 大模型的突破,第 50 届国际数学奥林匹克竞赛金牌选手郑凡表示,这彻底改变了他对当前大模型数学能力上限的看法,未来大模型有望成为一名真正的 " 研究伙伴 ",和人类携手探索数学,乃至更广阔的科学疆域。

" 通专融合 " 走出 " 第三条路 "

" 书生 " 模型之所以能取得如此突破,关键在于它采用了上海 AI 实验室提出的 " 通专融合 " 技术架构。

当前,全球围绕科研领域的 AI 竞赛存在两条主要技术路线:一条是 " 专业派 ",以谷歌 AlphaProof 为代表,核心是基于形式化语言的专业模型,其推理过程绝对严谨,但泛化性差、效率低;另一条是 " 通用派 ",主要采用基于自然语言的通用模型,泛化性强,但容易产生幻觉,难以保证推理的严谨性。

" 书生 " 走出了独特的 " 第三条路 "。据项目团队介绍,该模型通过多项核心技术创新,实现了 " 通专融合 ",使得通用模型也具备进行超长程的严谨推理能力。

首先是以数学引理为核心的多轮分层推理机制。面对高难度数学问题,大模型像数学家一样将复杂推理拆解为一个个可复用的 " 引理模块 ",通过多种模型的分工协作,突破了单次上下文长度限制,实现了分阶段探索与校验。

二是基于结果的过程校验。针对 AI 在进行长链条推理时容易出错的痛点,科研人员引入了高密度的监督机制,显著提升了证明过程的严谨性。

三是将通用模型与专业符号引擎结合,使 AI 兼具 " 发散性思维 " 和精确严谨,使其能像人类科学家一样逐步推导、试错和修正。

值得一提的是,上海 AI 实验室的这一技术路线已展现出极高的数据效率。相比于谷歌的几何模型 AlphaGeometry2," 书生 " 仅需不到万分之一的训练样本就实现了超越,摆脱了对超大规模合成数据的依赖。

上海 AI 实验室主任、首席科学家周伯文

AI 接连攻克基础科学堡垒

此次在数学奥赛中取得佳绩,并非上海 AI 实验室在科学领域的 " 首金 "。就在上个月,该实验室的 AI 模型同样经受了 2025 年国际物理奥赛(IPhO)的考验,并拿下金牌,成为首个也是唯一获得金牌的开源模型。接连攻克两座基础科学的 " 堡垒 ",某种意义上标志着 AI 正从单一任务的求解者,逐渐向具备跨学科能力的 " 全能科学家 " 演进。

当前,全球科技巨头都在竞相布局 AI for Science(人工智能驱动的科学研究),但往往受困于无法突破 " 长程思考 " 的瓶颈。上海 AI 实验室的探索证明," 通专融合 " 在赋能多领域科研方面的技术可行性。

正如上海 AI 实验室主任、首席科学家周伯文所说,AI for Science 应当在未来迈向 AGI(通用人工智能) for Science,这意味着需要从纯粹依赖自然语言,走向自然语言与符号语言等多种表示形式的融合。" 书生 " 模型正是这一理念的体现。

当前,不少科学领域都积累了许多专业工具和计算引擎。一旦 AI 模型能够展现出足够的泛化能力,那么采取 " 通专融合 " 的路线,叠加相关学科领域的专业工具,AI 有望快速达到该领域专家水平。

据上海 AI 实验室透露,他们计划将 " 书生 " 模型的长程推理能力,拓展至物理、化学、生命科学等更广泛的基础科研领域,不断推进 " 长时间独立思考 ",甚至是 " 长时间独立科研 ",从而加速各领域科研范式的根本性变革,为重大科学突破提供关键支撑,赋能未来的科学发现进程。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

上海 数学 ai 阅卷 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论