字节跳动VAPO突破AI推理极限，AIME24创60.4分新高

IT 之家 4 月 12 日消息，字节跳动于 4 月 8 日发布博文，其 Seed 研究团队推出 VAPO 强化学习训练框架，目标提升大型语言模型在复杂、冗长任务中的推理能力。

现有挑战

在大型语言模型（LLM）的强化学习（RL）训练中，价值导向方法（Value-based reinforcement learning methods）因能精确追溯每个动作对后续回报的影响，展现出巨大潜力。然而，应用于长链式推理（CoT）任务时，价值模型面临三大挑战。

首先，价值模型初始化会引入偏差；其次，传统方法难以适应复杂任务中的序列长度差异；最后，验证任务中奖励信号稀疏，优化过程面临探索与利用的权衡，这些问题限制了价值导向方法的实际效果。

VAPO 简介

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd（增强价值的近端政策优化），基于 PPO 框架，通过三项创新技术应对上述挑战。

首先，VAPO 模型构建了细致的价值训练框架，增强模型对复杂任务的理解。其次，引入长度自适应广义优势估计（GAE）机制，能根据响应长度动态调整参数，优化长短序列的训练效果。最后，VAPO 整合了多项先前研究技术，形成协同增效的系统。

在不依赖特定监督微调（SFT）数据的情况下，Qwen2.5-32B 模型通过 VAPO 优化后，在 AIME24 基准测试中将得分从 5 分提升至 60.4 分，超越 DeepSeek R1 的 47 分，超过此前 SOTA 方式 DAPO（50 分）10 分，仅用 60% 的更新步骤即达成业界领先。

相较于传统 Proximal Policy Optimization（PPO）算法，VAPO 改进了数学推理能力，训练曲线更为平滑，优化过程更稳定。

测试显示，归因于其价值模型提供的细粒度信号，VAPO 在长序列任务中表现出色，得分增长更快。尽管后期训练熵值降低可能限制探索，VAPO 通过平衡设计确保了稳定性和可重复性。

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性：价值预训练防止崩溃，解耦 GAE 支持长回答优化，自适应 GAE 平衡短长回答，剪裁策略鼓励探索，词级损失增加长回答权重，正例语言模型损失提升 6 分，分组采样贡献 5 分。

这些改进使 VAPO 在探索与利用间找到最佳平衡，显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力，还为 LLM 在复杂推理任务中的应用提供了新方向。

宙世代

一起剪

相关标签