
智东西
作者 | 王涵
编辑 | 心缘
智东西 2 月 2 日报道,今日,阶跃星辰Step 3.5 Flash开源并上线,该模型在 Agent 场景和数学任务上能力逼近闭源模型,能够胜任复杂、长链条任务,是阶跃星辰迄今最强的开源基座模型。

Step 3.5 Flash 开源页面(来源:Hugging Face)
就在上周,阶跃星辰宣布由旷视科技联合创始人、千里科技董事长印奇正式出任董事长,并完成华勤、腾讯等参投的超 50 亿元 B+ 轮融资。这也是印奇履新后,阶跃星辰在开源模型领域的首个大动作。
在智能密度对比图中可以看出,Step 3.5 Flash 以约 200B 的参数量,取得了 81.0 的分数,在所有模型中智能密度最高。在单请求代码类任务中,Step 3.5 Flash 的推理速度最高可达到 350TPS。

智能密度对比图
Step 3.5 Flash 采用稀疏 MoE 架构,每个 token 仅激活约 110 亿个参数(总计 1960 亿参数),在保证模型能力的同时提升推理效率。
包括华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥在内的多家芯片厂商,已率先完成对 Step 3.5 Flash 的适配。
开源地址:
GitHub:
https://github.com/stepfun-ai/Step-3.5-Flash/tree/main
Hugging Face:
https://huggingface.co/stepfun-ai/Step-3.5-Flash
一、性能全面逼近闭源大模型,最高推理速度达 350TPS
在基准测试成绩上,推理能力方面,Step 3.5 Flash 在 AIME 2025、IMOAnswerBench、HMMT 2025 等数学竞赛级任务中分别取得了 97.3、88.8、96.2 的分数,均排名第二,Step 3.5 Flash 开启 Parallel Thinking 后的增强性能排名第一。
在编码能力上,Step 3.5 Flash 在 LiveCodeBench-V6 测试中得分 86.4,排名第三,开启 Parallel Thinking 后,其仅次于 Gemini 3.0 Pro。
在智能 Agent 能力上,Step 3.5 Flash 在 BrowseComp 测试中得分 69.0,仅次于 kimi K2.5;在 xbench-DeepSearch 测试得分 54.0,仅次于 GPT-5.2 xhigh。

基准测试成绩
该模型采用稀疏混合专家(MoE)架构,总参数量达1960 亿,单个 token 仅需激活约110 亿参数。
针对长文本处理场景,Step 3.5 Flash 三路多 Token 预测(MTP-3)技术,Step 3.5 Flash 在典型使用场景中实现了每秒 100-300 个 token的生成吞吐量,在单请求代码类任务中峰值可达350TPS。
在长上下文任务中,模型仅聚焦关键信息区域,降低冗余计算开销,可支撑256K长度的长文本理解与生成。
据官方介绍,Step 3.5 Flash 专为智能体任务构建,集成了可扩展的强化学习框架以实现持续的自我改进。
该模型通过采用3:1 滑动窗口注意力(SWA)比例,即每层全注意力层配以三层 SWA 层。这种混合方法确保模型在处理海量数据或长代码库时性能稳定,同时降低了标准长上下文模型通常所需的计算开销。
针对可访问性优化,Step 3.5 Flash 可以在高端消费级硬件,如 Mac Studio M4 Max、NVIDIA DGX Spark 等上安全运行,确保数据私密性的同时不牺牲性能。
二、几秒算出等差数列,还能一句话搭建可视化平台
智东西第一时间上手体验,首先数学方面,我们先考考 Step 3.5 Flash 一个把很多大模型都难倒了的问题:9.9 和 9.11 谁大?Step 3.5 Flash 几乎立刻就给出了思考过程和正确答案,但是在回答中出现了将 9.9 误输出为 99.9 的错误。

9.9 和 9.11 比大小
那再复杂一些的数学题呢?阶跃星辰官方给出案例,Step 3.5 Flash 可以快速计算复杂数学题并输出正确答案。
Prompt:请在不使用外部工具的情况下,依次计算并列出以下等差数列的和:从第 1 项开始,首项为 100,公差为 -3 的前 50 项和;1³+2³+…+10³ 的和;1!+2!+3!+4!+5! 的和;2^10+3^5 的和;√144+ ∛ 125+ ⁴ √16 的和。
快速计算复杂数学题
在智能体编程方面,Step 3.5 Flash 可以基于一段文字 prompt 自动编程输出可视化平台结果。
我们让 Step 3.5 Flash 生成一个模拟海浪平台,可以看到,其生成的可视化平台可以调节海浪的频率和形态,还可以调整摄像头的位置,生成效果基本符合要求。
生成模拟海浪平台
官方给出了一个生成气象情报仪表盘的例子:
Prompt:气象情报仪表盘——一款受飞行驾驶舱启发的三维地球可视化平台,专为高密度数据环境设计。其搭载的定制 WebGL 2.0 引擎,可实时处理超过 15000 个动态节点及 WebSocket 遥测数据流。
生成结果显示,Step 3.5 Flash 展现出了构建低延迟数据管道与高性能地理空间可视化系统的能力。
生成气象情报仪表盘
Step 3.5 Flash 也原生支持多智能体架构,其中一个主智能体通过自主规划和动态路由来协调复杂任务。
这个分层框架会派遣专门的 " 搜索 " 和 " 验证 " 智能体,通过并行工具调用循环来处理信息检索和事实核查。为确保精确性,一个 " 总结 " 智能体会将每个子智能体的执行轨迹整合为结构化反馈,使主智能体能够综合生成最终连贯的响应。

多智能体深度研究
Step 3.5 Flash 还可以端云结合,简化本地端执行流程。例如,用户提出对比 Mac Mini M4 在各平台的价格。
Step 3.5 Flash 作为 " 云端大脑 ",将这一复杂需求拆解为针对淘宝、京东和拼多多的具体子任务。随后 Step 3.5 Flash 汇总结果,识别出拼多多为最低价平台,并提供购买指南。
这种云端规划显著降低了本地 Step-GUI 的执行难度,使其在从各应用抓取实时数据时获得更高成功率。
对比 Mac Mini M4 在各平台的价格
结语:Agent 能力成为新战场
无论是阶跃星辰 Step 3.5 Flash 的开源,还是此前月之暗面 Kimi K2.5 的发布,都指向了 Agent 的能力,阶跃星辰官方还透露已经开启 Step 4 模型的训练,同样是 Agent 基础模型。
Agent 要求模型具备深度的逻辑推理、任务拆解、规划执行和工具调用能力,对模型 " 大脑 " 的性能要求更高。
模型大脑的技术迭代加速了 AI 技术的实用化进程,或将催生更强大的生产力工具,并可能围绕智能体形成新的竞争格局。


登录后才可以发布评论哦
打开小程序可以发布评论哦