
智东西
编译 | 王欣逸
编辑 | 程茜
智东西 12 月 10 日消息,昨晚,法国大模型独角兽 Mistral AI 发布并开源编程系列模型 Devstral 2,该系列分为两个不同规格的模型 Devstral 2 132B 和 Devstral Small 2 24B。此外,Mistral 还同时推出了原生 CLI 工具 Mistral Vibe,能实现端到端的代码自动化。此次发布距 Mistral 3 系列模型才过去一周。

Devstral 2 参数为 123B,支持 256K 上下文窗口,可以探索代码库,并能在保持架构层面上下文理解的同时,进行跨文件协调更改;Devstral Small 2 参数为 24B,同样具备 256K 上下文窗口,支持快速推理和反馈,可以定制和本地部署,同时还支持图像输入,可应用于多模态 Agents。
在 SWE-bench Verified 编程基准测试中,Devstral 2 取得了 72.2% 的成绩,优于 Qwen 3 coder plus、Kimi K2 Thinking 等开源模型,仅次于 DeepSeek V3.2;Devstral Small 2 取得了 68.8% 的成绩,超过 GPT-OOS-120B,和 GLM 4.6 持平;在针对实际编程任务进行的人工测试中,Devstral 2 表现优于 DeepSeek V3.2。基准测试结果如下:

此外,在部署上,Devstral 2 至少需要四块 H100 级 GPU,更轻量化的 Devstral Small 2 可以在消费级硬件上本地运行。
Mistral Vibe 是一个由 Devstral 驱动的开源命令行编程助手,集成了文件操作、代码搜索、版本控制及命令执行等工具。
Mistral AI 是一家法国创企,成立于 2023 年,由前 DeepMind 和 Meta 研究人员成立,专注于开源模型开发。今年 9 月,该公司宣布获得 17 亿欧元(约合人民币 139.9 亿元)C 轮融资,估值达到 117 亿欧元(约合人民币 962.6 亿元),英伟达曾三次投资这家公司。
一、基准测试位列开源第二,和顶尖闭源还有性能差距
据 Mistral 官网,Devstral 2 123B 支持探索代码库,能跨多个文件协调修改,还能保持上下文理解。它可以跟踪框架依赖、检测故障,并能通过修正后重试,从而解决如修复错误、改造遗留系统等复杂挑战。
该模型支持微调,可针对特定编程语言进行优化,适配大型企业代码库的需求。
不过,Devstral 2 以修改版的 MIT 协议发布,这一协议对大企业进行了限制:月收入超过 2000 万美元(约合人民币 1.41 亿元)的公司,在未获得 Mistral 单独商业许可的情况下,无法使用该模型。
更轻量化的模型 Devstral Small 2 24B 支持快速推理、迭代反馈和定制,可本地部署,同时还支持图像输入,可应用于多模态 Agents。
从基准测试来看,Devstral 2 模型位列开源模型的第二名,并正赶超顶尖闭源模型。
Devstral 2 在 SWE-bench Verified 编程基准测试中取得了 72.2% 的得分,Devstral Small 2 取得了 68% 的得分,在开源模型中已经达到了领先水平,Devstral 2 的得分仅次于 DeepSeek V3.2。

Devstral 2 系列模型的亮点在于小参数设计,其模型在关键基准测试中展现出和顶尖开源模型齐平的性能,却仅需后者几分之一的参数量。
得分只比 Devstral 2 高 0.9% 的 DeepSeek V3.2,其参数大小是 Devstral 2 的 5 倍,是 Devstral Small 2 的 28 倍,而表现次于 Devstral 2 的 Kimi K2 Thinking,其参数大小是 Devstral 2 的 8 倍,是 Devstral Small 2 的 41 倍。

不过,Devstral 2 系列模型与顶尖闭源模型之间还存在差距。
人工评测结果显示,在 Cline 构建的任务场景中,Devstral 2 相对 DeepSeek V3.2 优势明显,胜率为 42.8%,败率为 28.6%。然而,Devstral 2 相对顶尖闭源模型 Claude Sonnet 4.5 败下阵来,胜率仅为 21.4%,败率为 53.1%。
二、端到端代码自动化,能进行架构级推理
Mistral Vibe 是基于 Devstral 模型构建的开源命令行编程助手,能通过自然语言交互,接入 IDE,实现对代码库的探索、修改与变更执行。

Mistral Vibe 提供了一个交互式对话界面,集成了文件操作、代码搜索、版本控制及命令执行等工具。
它能自动扫描用户文件结构及 Git 状态,提供相关上下文信息,能理解整个代码库的架构,并进行架构级推理,此外,它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。
开发者可以通过脚本编程方式运行 Mistral Vibe,启用工具执行的自动批准功能,通过简洁的 config.toml 配置文件管理本地模型与供应商设置,灵活控制工具权限。
结语:平衡高性能与小参数,为企业提供了低门槛解决方案
从 Mistral 3 到 Devstral 2 系列、Mistral Vibe,Mistral AI 正以相当快的进击速度参与 AI 竞争,并在模型的高性能与轻量化间实现了平衡,从测试结果看,Devstral Small 2 模型在参数仅为 24B 的情况下,依然优于不少开源模型,和 GLM 4.6 打平。
Mistral AI 在公告中提到,Devstral 2 系列模型专为生产级工作流打造,并被定位为下一代 SOTA 编程模型。尽管和顶尖闭源编程模型还有很大差距,不过,对大多数企业而言,Devstral 2 和 Devstral Small 2 可以作为一个低门槛的初步解决方案,尤其是在和 Mistral Vibe 的搭配使用上,Devstral 2 系列模型或将在特定的生产环节发挥作用。


登录后才可以发布评论哦
打开小程序可以发布评论哦