量子位 04-05
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

有点意思。

这不DeepSeek前脚刚刚上新了一篇关于推理时 Scaling Law 的论文嘛,引得大家纷纷联想是不是 R2 马上要来了

然鹅……奥特曼这边却发了一条 " 变卦 " 的消息:

计划改变:我们可能在几周之后先发布 o3 和 o4-mini

至于大家翘首以盼的GPT-5,奥特曼表示:

将在几个月之后,而且效果会比我们最初设想的还要好。

至于原因,奥特曼也做出了解释。

大概意思就是,顺利整合所有内容比他们想象的要困难得多,希望确保有足够的能力来支持预期的需求。

咱就是说啊,现在真的是 DeepSeek 这边一有点声响,OpenAI 那边就得有点动作来紧跟一下了。

DeepSeek 新论文

在这个小插曲之后呢,我们还是把目光聚焦在 DeepSeek 这篇新论文身上。

这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由 DeepSeek 和清华大学共同提出。

这篇研究核心的亮点,就是提出了一个叫做SPCT 方法(Self-Principled Critique Tuning)的方法——

首次提出通过在线强化学习(RL)优化原则和批判生成,实现推理时扩展。

之所以要做这么一项研究,是因为之前大家用奖励模型(Reward Model, RM)在 RL 中为大语言模型生成奖励信号。

但现有的 RM 在通用领域却表现出受限的情况,尤其是在面对复杂、多样化任务的时候。

因此,就出现了两个关键挑战点。

一个是通用 RM 需要灵活性(支持单响应、多响应评分)和准确性(跨领域高质量奖励)。

另一个则是现有 RM(如标量 RM、半标量 RM)在推理时扩展性差,无法通过增加计算资源显著提升性能。

为了解决这个问题,DeepSeek 和清华大学团队便提出了 SPCT。

整体来看,这项研究主要包含三大核心技术点。

首先就是生成式奖励模型(GRM)。

它采用点式生成奖励模型(Pointwise GRM),通过生成文本形式的奖励(如 critiques)而非单一标量值,支持灵活输入(单响应、多响应)和推理时扩展。

其中,C 是生成的 critique,fextract 从中提取分数。

接下来,是关键的SPCT了。

主要是通过在线强化学习(RL)训练 GRM,使其能动态生成高质量的原则(principles)和批判(critiques),从而提升奖励质量。

整体来看,SPCT 是一个两阶段的过程,它们分别是:

拒绝式微调(Rejective Fine-Tuning)

:冷启动阶段,通过采样和拒绝策略生成初始数据。

基于规则的在线 RL

:使用规则化奖励函数优化原则和批判的生成,鼓励模型区分最佳响应。

在此基础上,便是第三个技术点,即推理时扩展技术

先是通过多次采样生成多样化的原则和批判,投票聚合最终奖励,扩展奖励空间。

再训练一个辅助模型过滤低质量采样,进一步提升扩展效果。

基于上述的方法,团队也对结果做了一波测试。

在 Reward Bench、PPE、RMB 等基准上,DeepSeek-GRM-27B 显著优于基线方法(如 LLM-as-a-Judge、标量 RM),且通过推理时扩展(32 次采样)性能进一步提升(如 Reward Bench 准确率从 86.0% 提升至 90.4%)。

总而言之,这篇研究证明了推理时扩展在通用 RM 中的有效性,性能超越训练时扩展。

One More Thing

奥特曼发布 " 变卦 " 消息之外,还不忘给自己带一波货,称有两本他亲自参与的书即将发布:

一本是 Keach Hagey 写的关于奥特曼本人的书

一本是 Ashlee Vance 写的关于 OpenAI 的书

论文地址:

https://arxiv.org/abs/2504.02495

参考链接:

[ 1 ] https://x.com/sama/status/1908167621624856998

[ 2 ] https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/

[ 3 ] https://x.com/sama/status/1908163013192069460

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

速抢席位!中国 AIGC 产业峰会观众报名通道已开启  ‍♀️

最新嘉宾曝光啦    百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领域创变者将齐聚峰会,让更多人用上 AI、用好 AI,与 AI 一同加速成长~

4 月 16 日,就在北京,一起来深度求索 AI 怎么用  

一键星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

奥特曼 清华大学 联想 效果 核心技术
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论