横扫 31 个主流基准、拿捏 10 类核心任务,视觉模型界的 " 通才 " 来了!
香港中文大学 MMLab 与美团研究团队开源提出OneThinker——一个基于 RL 的统一多模态视觉推理通才模型,覆盖图像与视频两种模态下的十类核心视觉任务。

在 31 项主流视觉任务测试中,OneThinker 均表现亮眼。它不仅能在多任务训练中实现相互促进,还能在从未见过的任务上做出合理推理,初步展现了通才模型的泛化能力。

虽然以 Vision-R1、Video-R1、VLM-R1 等为代表的工作,已经在图像问答、视频理解、目标检测等任务上取得显著效果。
但这类 RL 模型大部分存在一个限制:只能处理单一模态或单一任务。模态、任务之间缺乏关联,推理能力被割裂,难以泛化应用。
来看看 OneThinker 是如何做的。
现实世界中的视觉数据复杂多样,往往同时包含静态图像与动态视频信息。同时,视觉任务类型也高度多样化,例如问答、定位、分割、追踪等。
在这种背景下,传统的 " 单任务、单模态 "RL 思考模型架构存在以下两个根本性问题:
无法统一建模现实复杂场景
真实应用中往往需要同时理解图像与视频内容,并完成多类任务协同,专才模型难以满足。
知识隔离,迁移受限
模型之间彼此独立,缺乏知识共享机制,限制了推理能力在任务之间的泛化与迁移。
为了解决这一问题,研究团队提出了一个 " 通才思考模型 "OneThinker,具备统一理解和推理不同模态、任务的能力。

为了让 OneThinker 真正具备统一推理不同模态和任务的能力,研究团队从两方面入手:一是构建统一的数据体系,二是优化多任务的训练方法。
多模态统一任务数据构建

构建具备通用视觉推理能力的模型,首先需要解决数据覆盖不足、任务割裂的问题。
为此,研究团队精心搭建了一套数据集,分别用于模型的 SFT 冷启动与强化学习训练:
OneThinker-600k
覆盖图像与视频两种模态,涵盖图像问答、视频问答、时空定位、分割、跟踪等十类核心视觉任务,用于强化学习阶段的主力训练数据。
OneThinker-SFT-340k
基于 Seed1.5-VL 对 OneThinker-600k 生成高质量的思维链样本并过滤,用于 SFT 阶段冷启动
通过图像与视频任务的联合训练,OneThinker 能够在空间与时间维度上建立统一的推理能力,从而实现跨模态、多任务的通用理解。
EMA-GRPO:提升多任务 RL 训练稳定性

传统强化学习方法在多任务、多模态场景中存在显著训练不平衡问题。
不同任务之间的奖励结构差异较大(如检测任务的奖励稠密,而问答类任务往往稀疏),容易导致样本间或任务间训练不平衡的问题。
为此,OneThinker 引入了全新的EMA-GRPO(Exponential Moving Average Group Relative Policy Optimization) 强化训练算法,通过对各任务奖励标准差进行滑动平均归一,解决了两个层面的不平衡问题:
任务内样本权重不均:缓解模型对低方差样本的过度依赖;
任务间梯度贡献失衡:防止稀疏任务在反向传播中占据主导,抑制其他任务学习。
实验结果表明,EMA-GRPO 能显著提升强化学习阶段的训练稳定性与收敛速度,为大规模统一推理模型的多任务训练提供了有效支撑。
实验结果
为了全面评估 OneThinker 的能力,研究团队在图像与视频两个模态下不同任务的31 个主流 benchmark上进行了系统测试,覆盖图像问答、视频理解、空间定位、时间定位、目标分割、目标追踪等 10 类核心视觉任务。

OneThinker 在图像问答任务中表现出色,MMMU 达到 70.6%,MathVerse 达到 64.3%,在视频理解上,VideoMMM 取得了 66.2% 的表现。

对于时间定位和空间定位任务中,模型在 RefCOCO testA 的空间定位任务中也取得了 93.7% 的高分,Charades 和 ActivityNet 的 R@0.5 分别达到 68.3 和 43.6。

同时,OneThinker 在追踪任务 GOT-10k 上 AO 达到 73.0, 在视频分割任务 ReasonVOS 上 J&F 得分为 54.9,体现了其在感知类任务中的稳健表现,更多的任务表现请参考原文。

研究团队还发现,在某些任务和模态之间,OneThinker 能实现有效的知识迁移与共享,不同任务之间相互促进。

同时,OneThinker 在未见任务上展现出零样本能力,能直接适应如点追踪、图像质量评估、GUI 理解和旋转目标检测等任务,体现出强大的任务泛化能力。
可以说,OneThinker 的推出,不仅展示了强化学习在统一多模态、多任务视觉推理上的潜力,也为构建真正的视觉通才模型提供了清晰的路径。
在大模型不断走向多模态、强推理、通才化的趋势下,OneThinker 的工作或许只是一个起点,但它所验证的方向,正在成为通往通用视觉智能(AGI)的关键一环。
更多细节,请参考原文。
论文地址:https://arxiv.org/pdf/2512.03043
代码地址:https://github.com/tulerfeng/OneThinker
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦