三易生活 11-18
月之暗面发布数学推理模型,对标o1系列两款模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前,AI 初创公司月之暗面宣布推出数学推理模型 k0-math,并将陆续在 Kimi 网页版和 Kimi 智能助手 APP 上线,以帮助用户完成更具挑战性的数学任务。

据悉,k0-math 是月之暗面方面推出的首款推理能力强化模型,采用了全新的强化学习和思维链推理技术,并通过模拟人脑的思考和反思过程,大幅提升解决数学难题的能力。具体而言,常规模型的设定目标是尽快提供答案,但 k0-math 则会花更长时间来推理,包括思考和规划思路,并且在必要时自行反思、改进解题思路,以提升答题的成功率。

根据多项数学基准能力测试结果显示,该模型的表现可对标 OpenAI o1 系列的 o1-mini 和 o1-preview,并在中考、高考、考研,以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 初代模型取得的成绩就超过了上述两个模型。

同时在业界最常使用的数学能力基准测试 MATH 中,k0-math 的分数为 93.8,这一成绩超过了 o1-mini 的 90 分和 o1-preview 的 85.5 分,仅次于暂未开放的 o1 完全版的 94.8 分。而在难度更大的竞赛级别数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

不过需要注意的是,k0-math 虽然擅长解答大部分很有难度的数学题,但其当前版本还无法解答 LaTeX 格式难以描述的几何图形类问题。此外该模型还有一些局限性需要突破,例如对 "1+1 等于几 " 这种过于简单的问题可能会过度思考,而对于高考难题和 IMO 题依然有一定概率做错或是猜答案,此外还需要更好的泛化才能在更多学科的场景中落地使用。

对此月之暗面方面表示,这些局限性既是 k0-math 的机遇、也是挑战,预计将会在下一阶段的迭代中逐步得到改善。接下来该模型还将持续迭代,提升更难题目的解题能力,并挑战数学模型的能力极限。

值得一提的是,除了推出 k0-math 之外,日前月之暗面方面还公布了此前在 10 月中旬上线的 Kimi 探索版最新进展,并称其通过运用强化学习技术,在意图增强、信源分析和链式思考三大推理能力上实现了突破。

目前 Kimi 探索版可以将抽象的问题和模糊的概念具体化、拓展用户的真实搜索意图,同时能够从大量的搜索来源结果中,分析筛选出更具权威性和可靠性的信源,并且还可以更好地基于思维链推理能力处理产品、公司、行业等问题。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

kimi 数学 高考 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论