智东西 19小时前
开源新王炸!10B多模态小模型屠榜,性能媲美20倍巨无霸
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 程茜

编辑 | 李水青

智东西 1 月 20 日报道,今日下午,阶跃星辰开源多模态模型 Step3-VL-10B。该模型参数量为 10B,在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模 SOTA 水平

阶跃星辰的多项测评显示,Step3-VL-10B 的性能可以媲美甚至超越规模大 10-20 倍的开源模型,如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B 以及闭源旗舰模型,如 Gemini 2.5 Pro、Seed-1.5-VL。

这一轻量级模型的性能表现,也意味着手机、电脑、工业嵌入式设备也可以运行 GUI 操作、复杂文档解析、高精度计数等复杂多模态推理任务。

从技术层面看,Step3-VL-10B 的性能突破得益于三个关键设计,分别是高质量多模态语料库上进行统一预训练、缩放多模态强化学习、并行协调推理机制。

目前,阶跃星辰已开源 Step3-VL-10B 系列的 Base 模型和 Thinking 模型。

Hugging Face 开源地址:

https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope 开源地址:

https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

体验地址:

https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

技术报告链接:

https://arxiv.org/pdf/2601.09668

一、从 GUI 感知到视觉识别和推理,Step3-VL-10B 思路清晰

阶跃星辰在官方公众号里放出了 Step3-VL-10B 在多模推理能力方面的真实案例。

首先是关于摩尔斯编码的推理,可以看到模型的思考过程思路清晰,先拆解字母再逐个查表,最后拼接,流程正确,并且对大部分字母如 S、T、E、F、U、N 的定位和编码描述准确。

其次是 GUI 感知能力,模型需要识别标签页中以章节开头 .tex 结尾的文件标签,可以看到其思考过程采用了识别标签、排除非目标、统计数量的步骤进行了准确分析,并有效规避了干扰选项。

第三个是关于图推理的案例,模型需要在连线非常复杂的图片中准确识别中长度最短的图有几条,从思考过程可以看到,其先确认了最小权重的边长度是 1,然后再统计所有权重为 1 的边。

二、拿下开源 SOTA,数学竞赛测试题超 94 分

Step3-VL-10B 具备三大核心亮点:

视觉感知精度更高:在同参数量级中展现出顶尖的识别与感知精度,研究人员为其引入 PaCoRe(并行协调推理)机制,模型在复杂计数、高精度 OCR 及空间拓扑理解等高难度任务上的可靠性提升。

深层逻辑推演与长程推理:得益于规模化强化学习(RL)的持续迭代,Step3-VL-10B 在 10B 规模上能应对竞赛级数学难题、真实编程环境、视觉逻辑谜题。

端侧 Agent 交互:基于海量 GUI(图形用户界面)专用预训练数据,模型能够精准识别并操作复杂界面。

阶跃星辰公开的多模态基准测试结果显示,Step3-VL-10B 是 10B 参数类别中最强大的开源模型。

具体来看,在多模态推理能力上,Step3-VL-10B 在部分测试集上超越了 GLM-4.6V、Qwen3-VL 等模型,其性能优于 10 倍至 20 倍大的模型。

数学能力方面,该模型在 AIME 25/24 等数学竞赛测试题上得分超过 94 分,这意味着其在逻辑严密性上甚至优于许多千亿级模型。

2D、3D 空间推理能力上,模型在 BLINK 上表现出 66.79% 的涌现式空间意识,在 All-Angles-Bench 上达到 57.21%,意味着该模型在具身智能应用方面具有强大的潜力。

最后是编程能力,在真实、动态编程环境下,Step3-VL-10B 超越 GLM-4.6V、Qwen3-VL 等模型。

此外,该模型的开源主页显示,研究人员在 Qwen3VL-8B 相关的基准测试中出现了不准确数据,例如 AIME、HMMT、LCB,目前正在修复。这些错误是由于其在大规模评估过程中 max_tokens 设置错误造成,他们将重新运行测试,并在下一版技术报告中提供修正后的数据。

三、从感知到推理双提升,三大关键设计加持

该模型的论文提到,Step3-VL-10B 的性能突破得益于三个关键设计:

一是在高质量多模态语料库上进行统一预训练:研究人员采用单阶段、完全解冻的训练策略,在 1.2T token 的多模态语料库上进行训练,重点关注两大基础能力:推理和感知,例如通用知识和教育中心任务等推理能力,定位、计数、OCR 和 GUI 交互等感知能力。

通过联合优化感知编码器和 Qwen3-8B 解码器,STEP3-VL-10B 建立了内在的视觉 - 语言协同效应。

二是缩放多模态强化学习:通过一个严格的后训练流程解锁了前沿能力,该流程包括两阶段监督微调(SFT)以及超过 1400 次的强化学习迭代,结合可验证奖励(RLVR)和人类反馈(RLHF)。

三是并行协调推理机制:研究人员采用并行协调推理(PaCoRe),支持推理阶段的动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合,该机制显著提升了模型在竞赛级数学、复杂 OCR 识别、精准物体计数及空间拓扑推理中的准确度。

阶跃星辰的官方公众号提到,得益于 " 三位一体 " 架构,Step3-VL-10B 证明智能水平并不完全取决于参数规模。这也意味着:世界一流的多模态能力有望以更低成本、更少算力获得;与此同时,过去主要集中在云端超级智能将逐步向端侧下沉,推动终端走向 " 主动理解与可执行交互 "。

结语:Step3-VL-10B 或成端侧 AI 新选择

从 Step3-VL-10B 的实测可以看出,该模型凭借 10B 轻量化参数体量,通过高质量多模态语料统一预训练、千余次强化学习迭代及并行协调推理机制,实现了对超大规模模型的跨级性能追赶。

并且具体到 GUI 交互、精准计数、竞赛级数学推理等任务,该模型也展现出较大应用潜力,未来有望降低在工业质检、本地文档分析、基层医疗辅助等场景的部署门槛。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

摩尔 开源 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论