硅星人 09-13
“草莓”来了!OpenAI 凌晨发布 o1,首个会思考、博士级复杂推理大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

传闻中的 " 草莓 " 模型终于问世!

北京时间今日凌晨,OpenAI 官宣发布o1-preview,其全新推理模型系列的首个预览版。

新模型专注于复杂任务推理,能在科学、编程和数学等领域解决比以往模型更难的问题。使用速度比 GPT-4o 慢,价格也更高,同时发布的还有小尺寸经济版本 o1-mini。

以及这次不用等了:从今天起,ChatGPT Plus 和 Team 用户就可以访问 o1-preview 和 o1-mini,企业和教育用户将在下周早些时候获得权限,而 o1-mini 则计划对所有 ChatGPT 免费用户开放。

使用时只需在模型下拉菜单中手动选择即可。目前 o1-preview 每周的消息限制为 30 条,o1-mini 为 50 条。

开发者如果达到 tier 5 级别,也可以立即通过 API 调用这两个模型,只是成本较高: o1-preview 每百万输入标记 15 美元,每百万输出标记 60 美元。相比之下 GPT-4o 的对应费用分别为 5 美元和 15 美元。

Sam Altman 随即发文,"Jimmy 们,耐心时刻结束了。"

擅长复杂推理,STEM 技能堪比博士

据 OpenAI 称,o1 与 GPT-4o 的主要区别在于它更擅长解决复杂问题。在回答问题前会像人类一样花更多时间思考,产生一条长的内部思维链,并向用户解释推理过程。

经过训练,它还能优化思维过程、尝试不同策略以及识别自身错误,因此幻觉也相应减少。

在测试中,新模型在物理、化学和生物学等具有挑战性的基准任务上可以媲美博士生表现,数学和编程方面表现尤为突出。

由于现有前沿模型在 MATH 和 GSM8K 测试中的表现已十分出色,以至于这些基准测试不再能有效区分模型,因此 OpenAI 选用了难度更大、被作为国际数学奥林匹克竞赛(IMO)资格选拔的 AIME 考试。

结果显示, GPT-4o 仅能正确解答 13% 的问题,而 o1 得分高达 83%,跻身美国前 500 名学生之列,成功获得奥赛资格。

在 Codeforces 编程比赛中,o1 同样拿到 89% 的优异成绩。OpenAI 还基于 o1 特别训练了一个更擅长编程的新模型 o1-ioi,后者得分更夸张,直接超过 93% 的参赛者。

在评估化学、物理和生物领域专业知识的 GPQA-diamond 测试中,o1 成为首个表现胜过人类专家的模型。另外它在 MMLU 的 57 个子类中有 54 个超越了 GPT-4o。

官方也放出几段视频 demo,来证明 o1-preview 的能力:

比如解决 " 当公主的年龄是王子将来年龄的两倍,而公主的年龄曾经是他们现在年龄和的一半时,公主和王子的年龄是多少?" 这个读起来都拗口的谜题。

模型缓冲了 30 秒,过程中逐步显示 " 思考、翻译问题、定义变量、解方程… ." 这些像人类推理一样的步骤,最终显示正确答案,公主的年龄是某个全新自然数 k 的 6 倍,而王子的年龄是 k 的 8 倍。

以及生成一个名为 " 松鼠寻找者 " 游戏代码的编程任务。

o1-preview 会先思考,规划代码的结构以确保符合要求。工作人员给出指令," 玩家通过箭头控制考拉,草莓每秒生成并弹跳,玩家需要躲避草莓并在 3 秒后找到松鼠获胜。" 模型经过 21 秒思考后生成了代码,测试显示,游戏可以顺利运行。

还有大模型频频翻车的 "Strawberry" 单词里有几个 "r" 的问题。

研究团队解释说,GPT-4o 等高级模型会犯这样的简单错误,是因为这些模型为处理文本而构建,而非处理字符或单词。而 o1-preview 是一个推理模型,可以推理出正确答案,并自我检查输出。

我们马上打开 o1-preview 试了一把,果然丝滑。

又用 GPT-4o 测试,也得出了 3 个 "r" 的正确答案,但是少了分析推理过程。

不过 o1-preview 也不是万能的。评估显示,在数据分析、编程等需要高推理能力的任务中,o1-preview 的表现明显优于 GPT-4o,获得了更高的人类偏好度。但在写作和编辑等自然语言处理任务中,它的优势却并不明显,且无法浏览网页或处理文件和图像。

因此 OpenAI 建议,该系列推理模型更适合面对科学、编程、数学及类似领域复杂问题的人群。比如供研究人员注释细胞测序数据,物理学家生成量子光学所需的复杂数学公式,以及各领域开发人员构建和执行多步骤工作流程等。

对于更广泛的人群,则可以在更具成本效益的 o1-mini 和 GPT-4o 间平衡选择。

o1-mini 同样在 STEM 领域表现出色,尤其是数学和编程评估基准上几乎与 OpenAI o1 能力相匹配。但它的价格却比 o1-preview 低 80%,速度也快 3-5 倍。

尽管如此,OpenAI 仍然相信 o1 代表了当前 AI 能力的全新水平,命名为 o1 也是为了表示 " 从头开始归零 "。

Sam Altman 将其称为 " 我们迄今为止最强大且对齐良好的模型。" 尽管仍然有缺陷,仍然有局限性,但这 " 标志着一个新范式的开始:能够进行通用复杂推理的 AI。"

完全不同于 GPT 的训练方式,实现类人 " 思维链 " 推理

与早期的 GPT 模型不同,o1 通过强化学习技术进行训练。

该算法基于奖励和惩罚机制,通过试错过程让模型不断调整决策,最终找到能够最大化长期回报的策略。学习方式类似于生物体通过经验积累来适应环境,从而优化行为。经过在专有数据集上的高效训练流程,o1 能够运用类似人类 " 思维链 " 的推理方式,逐步推演出正确答案。

OpenAI 发现,随着强化学习的深入和推理时间的增加,o1 的性能会持续提升。相比传统的 LLM 预训练,这种方法在扩展性上的限制显著不同,对此团队仍在持续研究中。

Greg Brockman(休长假版)解释道," 可以这样理解:我们的模型现在具备了系统 I 型思维,而‘思维链’解锁了系统 II 型思维。人们已经发现,当模型按照‘逐步思考’的提示进行推理时,性能会大幅提升。而通过试错的方式端到端地训练模型进行这种思考,比单纯提示要更可靠——正如我们在围棋或 Dota 等游戏中看到的那样,这种训练方式能够产生极为惊艳的结果。"

OpenAI 称,为了更好地监控模型行为,尤其是防止模型试图操控用户,决定不公开 o1 的 " 思维链 " 过程。为了确保模型能自由表达真实想法,团队并未对推理链进行修改或直接展示给用户。虽然这种方式存在一定局限性,但团队会通过让模型在最终回答中融入有用的推理内容来进行弥补。因此对于 o1 系列,用户只会看到简化的推理链摘要,而非完整的思维过程。

团队也表示后续将通过持续迭代发布更为完善的版本。" 我们相信,这些新的推理能力将有助于模型更好地与人类价值观和原则保持一致,同时在科学、编程、数学等领域解锁更多 AI 的应用潜力。"

" 草莓教 " 复兴,奥特曼:请感激

OpenAI 新模型一出," 草莓教 " 集体复活了。

Jimmy Apples 鼓掌称,OpenAI 故事第二章 Straberry Fields 终于开启。

即插即用,确实有点儿不像 OpenAI 历来的期货风格了。

有人觉得,OpenAI o1 一出,马上碾压 Claude 3.5、replit、Cursor 等以编程能力见长的 AI 工具。

已经有人结合了 OpenAI o1 和 Cursor Composer 创建 iOS 应用程序:

" 我用 o1 mini 启动了这个项目(因为 o1 的思考时间太长),然后切换回 o1 来完成细节部分。然后,boom!——在不到 10 分钟内,就完成了带有动画效果的 iOS 天气应用程序☀️"

英伟达首席研究经理 Jim Fan 说,"OpenAI 发布了新的 Strawberry ( o1 ) 模型,我们终于看到推理能力扩展的新范式被推广并应用到生产中!"

Jim fan 认为,o1 的意义在于不再只是通过增加模型规模来提升表现,而是通过优化推理过程。也就意味着人们不需要一个庞大的模型去完成复杂的推理任务,而是可以依赖一个 " 小而精 " 的推理核心,配合一些外部工具来解决问题。他给出几点分析:

1. 小模型也能推理:大模型通常有很多参数,用来记住大量事实,但推理和知识是可以分离的。你可以用一个较小的模型专注于推理,而不是记忆所有的事实。这种方式还能减少预训练的计算需求。

2. 更多计算放在推理阶段:不像之前的模型主要依赖训练阶段,现在很多计算资源是在推理时使用的。模型像模拟器一样,尝试多种可能的解决方案,直到找到最好的答案。这种做法类似于 AlphaGo 下棋时的思路。

3. 推理时的计算扩展更有效:OpenAI 很早就认识到,优化推理过程会比扩大模型本身更有效。最近的研究也表明,较小的模型通过优化推理计算可以击败更大的模型。

4. 实际应用挑战大:在真实环境中使用 o1 比在实验室测试中更难。你需要知道什么时候停止推理、如何定义成功、什么时候调用工具来帮助模型解决问题,并且还要考虑计算成本。

5. 数据越用越好:Strawberry 很容易变成一个数据飞轮。如果答案是正确的,整个搜索过程就会变成一个包含正负奖励的小型训练数据集。它可以帮助模型在未来变得更聪明,类似于 AlphaGo 通过不断的对弈提升自己的水平。

发布几个小时后,OpenAI 还带来了一个非常符合自己 style 的 " 小甜点 "。把 o1 团队的部分研究人员带到台前,浅介绍了一下模型开发的心路历程。感觉又有几个 " 星 " 要被造出来了。

全网激动之情溢于言表,也让人越发好奇下月的 OpenAI 开发者日上又会带来哪些新东西,以及被外界誉为 "GPT-5" 的猎户座会是什么形态。(抽到票的同学举手一下)

不过今天另外一件很有意义的事,似乎有些被 OpenAI 新模型盖过了光芒:马斯克旗下 SpaceX 的 " 北极星黎明计划 ",让人类实现了首次商业太空行走。

不知道奥特曼是不是有意而为之。但对于拆自己台的网友,他可没忍住回怼:

" 我们什么时候能得到新的语音功能??"

" 要不要先对从天而降的魔幻智能表示几周感激,然后你就能很快得到更多新玩具了?"

( OpenAI o1-preview 和 o1 mini 现已对所有 Plus 用户开放,亲测可用,敬请关注我们接下来的深度测评。也欢迎在评论区留言,分享你对新模型的试用感受!)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

编程 草莓 数学 物理 化学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论