月之暗面发布数学推理模型，对标o1系列两款模型

日前，AI 初创公司月之暗面宣布推出数学推理模型 k0-math，并将陆续在 Kimi 网页版和 Kimi 智能助手 APP 上线，以帮助用户完成更具挑战性的数学任务。

据悉，k0-math 是月之暗面方面推出的首款推理能力强化模型，采用了全新的强化学习和思维链推理技术，并通过模拟人脑的思考和反思过程，大幅提升解决数学难题的能力。具体而言，常规模型的设定目标是尽快提供答案，但 k0-math 则会花更长时间来推理，包括思考和规划思路，并且在必要时自行反思、改进解题思路，以提升答题的成功率。

根据多项数学基准能力测试结果显示，该模型的表现可对标 OpenAI o1 系列的 o1-mini 和 o1-preview，并在中考、高考、考研，以及包含入门竞赛题的 MATH 等 4 个数学基准测试中，k0-math 初代模型取得的成绩就超过了上述两个模型。

同时在业界最常使用的数学能力基准测试 MATH 中，k0-math 的分数为 93.8，这一成绩超过了 o1-mini 的 90 分和 o1-preview 的 85.5 分，仅次于暂未开放的 o1 完全版的 94.8 分。而在难度更大的竞赛级别数学题库 OMNI-MATH 和 AIME 基准测试中，k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

不过需要注意的是，k0-math 虽然擅长解答大部分很有难度的数学题，但其当前版本还无法解答 LaTeX 格式难以描述的几何图形类问题。此外该模型还有一些局限性需要突破，例如对 "1+1 等于几 " 这种过于简单的问题可能会过度思考，而对于高考难题和 IMO 题依然有一定概率做错或是猜答案，此外还需要更好的泛化才能在更多学科的场景中落地使用。

对此月之暗面方面表示，这些局限性既是 k0-math 的机遇、也是挑战，预计将会在下一阶段的迭代中逐步得到改善。接下来该模型还将持续迭代，提升更难题目的解题能力，并挑战数学模型的能力极限。

值得一提的是，除了推出 k0-math 之外，日前月之暗面方面还公布了此前在 10 月中旬上线的 Kimi 探索版最新进展，并称其通过运用强化学习技术，在意图增强、信源分析和链式思考三大推理能力上实现了突破。

目前 Kimi 探索版可以将抽象的问题和模糊的概念具体化、拓展用户的真实搜索意图，同时能够从大量的搜索来源结果中，分析筛选出更具权威性和可靠性的信源，并且还可以更好地基于思维链推理能力处理产品、公司、行业等问题。

【本文图片来自网络】

宙世代

逗玩.AI

相关标签