编译 | 徐豫
编辑 | 云鹏
智东西 2 月 8 日消息,谷歌旗下顶尖 AI 研究实验室 DeepMind 于 2 月 7 日发布论文,其开发的一套名为 AlphaGeometry2 的 AI 系统,解决国际数学奥林匹克竞赛(IMO)几何问题的表现,超越了金牌得主的平均水平。
AlphaGeometry2 是 DeepMind 去年 1 月发布的 AlphaGeometry 系统的升级版。在最近发表的一项研究中,AlphaGeometry2 能够解决过去 25 年 IMO 中 84% 的几何问题,而 OpenAI 的 o1 推理模型一道题都答不上来。IMO 是一个高中生的全球顶尖数学比赛。
据 DeepMind 团队分享,AlphaGeometry2 融合了神经网络理论和符号 AI 方法,其一方面采用基于神经网络架构搭建的谷歌 Gemini 系列模型,同时另一方面遵循符号 AI 的操作规则,以此提升 AI 系统理解、推理和逻辑证明能力,打开了实现通用 AI 的新思路。
事实上,今年夏天,DeepMind 曾展示了一套结合 AlphaGeometry2 和 AlphaProof 的系统,后者是一个用于形式数学推理的 AI 模型。该系统成功解决了 2024 年 IMO 六道题中的四道。
那么,DeepMind 为何会关注一个高中数学竞赛?
DeepMind 认为,解开复杂几何问题的新方法,可能是开发更强大 AI 系统的关键,尤其是欧几里得几何问题(Euclidean geometry problems)。
证明数学定理这件事,例如逻辑性地说明为什么勾股定理(Pythagorean Theorem)成立,不仅需要推理能力,还需要从多种可能的解决步骤中作出选择。DeepMind 认为,这种解决问题的能力或许能够成为未来通用 AI 模型的核心组成部分。
此外,除了几何问题,AlphaGeometry2 这套方法还可以扩展到其他数学或科学领域,例如可以为复杂的工程计算提供帮助。
一、双引擎核心发力,兼顾逻辑推理和大规模数据处理
AlphaGeometry2 内含多个关键组件,其中既有谷歌 Gemini 系列语言模型,也有一个 " 符号引擎 "。同时,这个符号引擎在 Gemini 模型的帮助下,可以更好地利用数学规则推导出问题的解决方案,从而为给定的几何定理找到行得通的证明。
▲ IMO 考试中的一道典型几何问题的示意图。(图源:TechCrunch)
IMO 中的几何问题通常需要添加辅助线,例如点、直线或圆等辅助构造,才能解答。AlphaGeometry2 的 Gemini 模型可以预测图中需要添加哪些辅助线,然后符号引擎则基于这些辅助线进行推理。
简单来说,AlphaGeometry2 的 Gemini 模型用一种形式化的数学语言,为符号引擎提供建议,而符号引擎可依据特定的规则,来检查这些步骤是否符合逻辑。
此外,该系统还配备了一种搜索算法,支持并行搜索多个解决方案,并且会把可能有用的发现存储在公共知识库中。
AlphaGeometry2 认定一个问题已被解决的条件是,得出的答案能够结合 Gemini 模型的建议,以及符号引擎的已知原则,完成证明闭环。
另外,由于将几何证明转换成 AI 可理解格式的过程较为复杂,几何问题的训练数据极为稀缺。为此 DeepMind 自创了合成数据集,生成了超过 3 亿个复杂程度不同的定理和证明,用于训练 AlphaGeometry2 的语言模型。
二、横杀过去 25 年的竞赛几何题,成绩媲美金牌得主
DeepMind 的研究团队选取了过去 25 年,即 2000 年至 2024 年,IMO 中的 45 个几何问题,并将这些问题转换成一组共有 50 道题的大题组。这 45 个几何问题中既有线性方程,也有涉及平面几何对象移动的方程。
不过,由于技术原因,目前大题组中的部分题目需要被拆分处理。
根据论文,AlphaGeometry2 成功解决了大题组中的 42 道题目,超过了金牌得主 40.9 分的平均成绩。
但同时,AlphaGeometry2 也存在一定的局限性。
尽管得分可以说表现优异,AlphaGeometry2 仍存在一些技术限制。例如,它暂时无法解决点数可变、非线性方程和不等式的问题。
在另一组难度更大一些的 IMO 题目中,AlphaGeometry2 的表现稍逊。DeepMind 研究团队挑选了 29 道曾被数学专家提名,但未曾出现在竞赛中的题目。而 AlphaGeometry2 仅成功解决了其中的 20 道。
此外,AlphaGeometry2 也并非第一个达到几何金牌水平的 AI 系统,不过它是第一个在如此大规模题集上取得这一成就的 AI 系统。
三、符号 AI 与神经网络学派各执一词,DeepMind 提出融合新法
DeepMind 这项研究结果,可能会加剧关于 AI 系统是否应该基于符号操作构建的争论。换句话说,AI 系统是应该使用规则来操作代表知识的符号,还是基于更类人脑的神经网络来构建。
AlphaGeometry2 采用了混合方法,其 Gemini 模型使用的是神经网络架构,而符号引擎则是基于规则。
神经网络理论支持者认为,从语音识别到图像生成,智能行为可以通过大量数据和计算资源自发涌现。
而符号系统支持者则认为,符号系统通过定义一组专门用于特定任务的符号操作规则来解决问题,例如在文字处理软件中编辑一行文字。而神经网络则需要通过统计相似数据和大量示例,才学会如何解决任务。
一方面,神经网络是 OpenAI o1 推理模型等强大的 AI 系统的基石;另一方面,符号 AI 的支持者认为,神经网络并非万能的,符号 AI 或许在高效编码真实世界知识、推理复杂情境和自证解答过程等方面,更具优势。
AlphaGeometry2 的成功表明,这两种方法的结合,或许是开发通用 AI 一条行之有效的路径。
事实上,根据 DeepMind 的论文,基于神经网络架构的 OpenAI o1 推理模型,无法解答 AlphaGeometry2 所解出的任何一道 IMO 问题。
然而,这种情况也许不会永远持续下去。在论文中,DeepMind 团队称,他们发现了初步证据,可以说明 AlphaGeometry2 的语言模型有时候能够在没有符号引擎辅助的情况下,生成部分解决方案。
" 这些结果在一定程度上支撑了,大模型可以在不依赖符号引擎等外部工具的情况下,自给自足的观点,"DeepMind 团队在论文中写道," 但在模型速度得到提升,且幻觉问题完全解决之前,这些外部工具对于 AI 数学应用来说,仍将至关重要。"
结语:AI 解难题更聪明了,但简单问题仍会 " 犯浑 "
DeepMind 的 AI 系统 AlphaGeometry2 成功挑战 IMO 竞赛金牌得主水平,一方面体现出 AI 数学、推理、逻辑证明能力的进步,可以与高中生竞争;另一方面也为 AI 界提供了通向 AGI 的新路径,在神经网络派和符号 AI 派的争论中,论证了二者相互配合提效 AI 推理的可行性。
与此同时,AI 从纸上谈兵到实战演练,仍有很长的路要走。如何保证简单任务执行的准确性、拓宽复杂任务处理的可能性、降低开发和部署成本等,都是 AI 玩家亟待解决的议题。
卡内基梅隆大学计算机科学教授 Vince Conitzer 告诉 TechCrunch,AI 系统在这些基准测试上持续取得令人瞩目的进展,但与此同时,语言模型和最近推出的具有推理功能的模型,仍会在一些简单的常识问题上苦苦挣扎,这种对比令人震惊。
他补充道,我并不认为这一切进展都是虚张声势,但它确实表明了,我们仍然不清楚下一个 AI 系统会有什么样的行为。这也意味着,这些 AI 系统可能会带来重大影响,因此我们迫切需要深入了解它们,以及它们可能造成的风险。
来源:TechCrunch
登录后才可以发布评论哦
打开小程序可以发布评论哦