每日经济新闻 09-13
重磅!会“思考解题逻辑”的OpenAI推理大模型登场,认知将跃升至“理科博士生水准”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

北京时间周五凌晨 1 时许,AI 时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。

图片来源:视觉中国 -VCG31N2008743681

OpenAI 在官网发布公告称,开始向全体订阅用户开始推送 OpenAI o1 预览模型——也就是此前被广泛期待的 " 草莓 " 大模型。OpenAI 表示,对于复杂推理任务而言,新模型代表着人工智能能力的崭新水平,因此值得将计数重置为 1,给它一个有别于 "GPT-4" 系列的全新名号。

推理大模型的特点,就是AI 会在回答之前花更多时间进行思考,就像人类思考解决问题的过程一样。以往的大模型,背后的逻辑是通过学习大量数据集中的模式,来预测单词生成的序列,严格来说并不是真正理解提问。

作为 o1 系列模型的首批版本,OpenAI 仅推出了 o1-preview 预览版和 o1-mini 迷你版,而且是分阶段向付费用户、免费用户和开发者推出,且开发者的使用价格颇为昂贵。

o1 模型使用成本至少是 GPT-4o 的 3 倍   采用全新方法训练

据介绍,o1 新模型通过背后崭新的训练方式,变得可以回答更复杂的编程、数学与科学难题,在给出答案前会先 " 思考 ",而且速度比人类更快。更小、更便宜的迷你版聚焦在编程用例。

ChatGPT Plus 和 Team 付费用户即刻起便能访问这两种模型,从用户界面 AI 模型选择器的下拉菜单中手动选择。ChatGPT Enterprise 和 Edu 用户下周能使用这两种模式,未来某个未知时刻还将向所有免费用户提供 o1-mini 的访问权限。OpenAI 希望以后能根据提示语自动选择正确的模型。

 

不过,开发人员访问 o1 非常昂贵,在 API(应用程序编程接口)中,o1-preview 每 100 万个输入 token 收费 15 美元,是 GPT-4o 成本的三倍,每 100 万个输出 token 收费 60 美元,是 GPT-4o 成本的四倍。100 万个 token 即模型解析文字块的规模大小,相当于大约 75 万个单词。

OpenAI 的研究负责人 Jerry Tworek 对媒体称,o1 背后的训练方式与之前的模型有着根本不同。

首先,o1" 使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练 ",这个数据集中包含 " 推理数据 " 和专门为其量身定制的科学文献。

其次,之前的 GPT 模型训练方法是模仿数据集的规律 / 范式(pattern),而 o1 采用 " 强化学习 " 的方式,通过奖励和惩罚来教导模型自行解决问题,再通过 " 思路链 "(chain of thoughts)来处理用户查询的问题,给出思路链的总结摘要版,类似于人类一步步来处理问题的方式。

右图可以点开思路链看 o1 模型如何 " 思考 "

对于一个复杂数学问题的思路链展示图

OpenAI 认为,这种全新的训练方法会让 o1 模型更加准确,会减少瞎编回答的 " 幻觉 " 问题,但也无法完全杜绝出现 " 幻觉 "。新模型与 GPT-4o 的主要区别在于能够更好地解决编程和数学等复杂问题,同时还能完善其推理过程、尝试不同策略,并识别和修正自身答案中的错误。

认知将跃升至 " 理科博士生水准 "

OpenAI 曾解释过,2023 年发布的 GPT-4 类似于高中生的智能水平,而 GPT-5 则是完成 AI 从 " 高中生跃升至博士 " 的成长。这个 o1 模型就是其中关键的一步。

相较于 GPT-4o 等现有的大模型,OpenAI o1 能够解决更加困难的推理问题,同时改善过往模型中存在的机制性缺陷。

举例而言,这个新模型能够数清楚 strawberry 里到底有几个 "r"。

同时 AI 在解答编程问题时也会更有条理,在着手写代码前,把整个回答的流程全部思考完一遍,再动手输出代码。

例如在预设条件的写诗任务(例如第二句的最后一个单词需要以 i 收尾)中," 拿起笔就写 " 的 GPT-4o 的确给出了回答,但往往只会满足了一部分条件,同时不会自我纠正。这意味着 AI 必须在第一次生成时就能碰上正确的答案,否则就一定会出错。但在 o1 模型中,AI 会不断试错并打磨答案,从而显著提高生成结果的准确率和质量。

有趣的是,点开 AI 思考的过程,还会出现 AI 表示 " 我在思考这个事情这么做行不行 "、" 啊时间不够了得尽快给出答案 " 等。OpenAI 确认,这里展示的并不是原始的思维链,而是 " 模型生成的摘要 ",公司也坦率承认这里有保持 " 竞争优势 " 的因素。

OpenAI 的研究负责人 Jerry Tworek 透露,o1 模型背后的训练与之前的产品有着根本性的区别。之前的 GPT 模型旨在模仿其训练数据中的模式,而 o1 的训练旨在让其独立解决问题。在强化学习的过程中,使用奖励和惩罚机制来 " 教育 "AI 使用 " 思维链 " 来处理问题,就像人类习得拆解、分析问题的方式一样。

根据测试,o1 模型在国际数学奥林匹克的资格考试中,能够拿到 83% 的分数,而 GPT-4o 只能正确解决 13% 的问题。而在编程能力比赛 Codeforces 中,o1 模型拿到 89% 百分位的成绩,而 GPT-4o 只有 11%。

OpenAI 表示,根据测试,在下一个更新的版本中,AI 在物理、化学和生物学的挑战性基准测试中,表现能够与博士生水平类似

缺点:无法浏览实时网页、无法上传文件和图片、缺乏广泛世界知识、或更易产生幻觉

但作为 o1 模型的最初始版本,今日发布的 o1- 预览版也有明显缺点。例如,只是一款 " 纯文字版 ",暂时无法浏览网页信息以及上传文件和图片,也就是说不具备 ChatGPT 的许多使用功能,在许多常见用例中不如 GPT-4o 那么强大,而且还有用量限制,o1 预览版每周上限为 30 条消息,迷你版每周上限为 50 条。

其他被提及的局限性包括:o1 模型在很多领域的能力不如 GPT-4o,在关于世界的事实知识方面表现不佳;有的用例下推理能力较慢,可能需要更长的时间来回答问题;目前 o1 只是一个纯文本模型,缺乏针对特定文档进行推理,或者从网络收集实时信息的能力。

此外,让 AI 模型玩井字棋(Tic-Tac-Toe)一直被认为是个业界难题,拥有推理能力的 o1 新模型也还是会在这个游戏中出错,即无法完全攻克技术难关。

OpenAI 还在一篇技术论文中承认,其收到了一些 " 轶事反馈 ",称 o1 预览版和迷你版比 GPT-4o 及其迷你版更容易产生 " 幻觉 ",也就是 AI 仍在很自信地编造答案,而且 o1 很少会承认它不知道问题的答案。

知名科技媒体 Techcrunch 指出,OpenAI 在 o1 模型相关的博文中点明,其决定不向用户展示这一新模型的原始 " 思维链 ",而是选择在答案中给出思维链的总结摘要,目的是为了维持 " 竞争优势 ",为了弥补可能的缺点," 我们努力教导模型在答案中重现思路链中的任何有用想法。"

每日经济新闻综合公开资料

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

人工智能 编程 规律 界面 草莓
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论