行业首个！商汤正式开源原生多模态架构NEO，训练仅需1/10数据量

智东西（公众号：zhidxcom）

编译 | 王欣逸

编辑 | 程茜

智东西 12 月 2 日消息，昨天，商汤科技正式发布并开源了全新多模态模型架构 NEO，该架构由商汤科技和新加坡南洋理工大学 AI 技术实验室 S-Lab 合作研发，是行业首个可用的、实现深层次融合的原生多模态架构，基于 NEO 架构的 NEO 模型仅用 3.9 亿训练数据，就达到了模块化架构下顶级 VLM（视觉 - 语言模型）模型的性能，数据量仅需其他同等性能模型的 1/10。

从基准测试来看，NEO 模型在多模态能力综合评估、跨学科和复杂推理等多项指标中碾压上海 AI Lab 推出的 Mono-InternVL-1.5、清华大学、上海 AI Lab 联合商汤推出的 HoVLE 等原生 VLM 模型，还在多项视觉理解任务中追平通义千问的视觉语言模型 Qwen2-VL、上海 AI Lab 联合商汤推出的 InternVL3 等基于模块化架构的顶级 VLM 模型。

当前，业内主流的多模态模型大多遵循 " 视觉编码器 + 投影器 + 语言模型 " 的模块化范式，本质上仍以语言为中心，图像与语言的融合仅停留在数据层面，视觉编码和语言解码分离，模型学习效率低下，在复杂多模态场景下处理任务受限。

为此，商汤科技抛弃了传统的模块化结构，推出从零设计的 NEO 原生架构。NEO 架构在注意力机制、位置编码和语义映射进行了底层创新，构建一个统一的原生基元，让模型具备统一处理视觉与语言的能力。

NEO 架构相关论文已发布在 arXiv 上，题为《从像素到文字——迈向大规模的原生视觉语言原始基元（From Pixels to Words — Towards Native Vision-Language Primitives at Scale）》，商汤科技联合创始人、执行董事及 AI 基础设施和大模型首席科学家林达华博士，南洋理工大学 S-Lab 负责人、副教授刘子纬等均在该论文的作者行列。

开源地址：https://github.com/EvolvingLMMs-Lab/NEO

论文地址：https://arxiv.org/abs/2510.14979

一、同参数全面领先原生 VLM，数据仅为同等性能模型的 1/10，复杂文本理解存在局限

基于 NEO 架构，研究人员推出了两个参数的 VLM 模型：NEO-2.2B 和 NEO-9B，这两个模型利用 Qwen3-1.7B 和 Qwen3-8B 两个基础语言模型作为基础语言模型，添加了原生视觉组件。

在基准测试中，研究人员把 NEO-2.2B、NEO-9B 和同级别 VLM 模型进行对比，包括模块化架构的 VLM 模型 InternVL3、Qwen2.5-VL 等，以及原生 VLM 模型 Mono-InternVL-1.5、HoVLE 等。为了进行公平、可控的科学对比，研究人员专门构建了一个模块化 VLM 基线模型 Encoder-Based 作为对照。

从通用视觉语言的理解能力来看，与模块化 VLM 相比，NEO 在 2B 和 8B 参数规模下表现都不错，NEO-2.2B 和 NEO-9B 在多模态能力综合评估、跨学科和复杂推理等多个关键指标优于模块化 VLM Encoder-Based；在同参数规模下，NEO 几乎全面领先其他原生 VLM。

值得一提的是，NEO 仅使用约 3.9 亿训练数据，而 InternVL3 等模块化架构的顶级 VLM 模型至少使用了 60 亿训练数据，是 NEO 所需数据的 15 倍。

视觉任务测试中，在图表理解和文档结构理解任务上，NEO-2.2B 和 NEO-9B 都表现出接近顶级模块化模型水平。

不过，NEO 的密集文本识别和理解能力仍存在不足，几乎落后于所有模块化模型，在原生模型的对比中也不占优。NEO-9B 在文档问答和图像中的文本问答能力的得分略低于 NEO-2.2B。

研究人员指出，密集文本识别和理解能力不足是由于训练数据中此类高质量、知识密集型样本的不足，而 NEO-9B 的得分低于 NEO-2.2B 则是由于当前训练数据集的覆盖范围和知识密度有限。

此外，NEO 在边缘部署方面具有优势，特别是在 0.6B-8B 的参数区间内，便于计算资源有限或实时性要求严格的场景应用。

二、原生图块嵌入，双向注意力并存，具备复杂场景扩展能力

NEO 架构通过在注意力机制、位置编码和语义映射三个关键维度的底层创新，让模型天生具备了统一处理视觉与语言的能力：

1、原生图块嵌入（Native Patch Embedding）：这一方法摒弃了离散的图像 tokenizer，通过独创的图块嵌入层（Patch Embedding Layer ，PEL）自底向上构建从像素到词元的连续映射。

2、原生三维旋转位置编码（Native-RoPE）：NEO 架构解耦了三维时空频率分配，为三个维度设定了不同的旋转基频率。视觉维度采用高频频率，便于模型理解空间布局和细粒度对齐；文本维度采用低频频率，兼容了预训练语言模型的旋转位置编码（RoPE）设置。由此，训练后的模型具备向视频处理、跨帧建模等复杂场景扩展的潜力。

3、原生多头注意力（Native Multi-Hea´d Attention）：针对不同模态特点，NEO 在统一框架下实现了文本 token 的自回归注意力和视觉 token 的双向注意力并存。基于此，模型可以无视线性化顺序，直接根据原生三维旋转位置编码（Native-RoPE）的二维坐标来学习任意两个空间区域的语义和几何关系，以支撑复杂的图文混合理解与推理。

三、三阶段训练，平稳过渡视觉能力与复杂文本指令

NEO 模型的训练分为三个阶段逐步推进：预训练、中期训练和监督微调。

在预训练阶段，训练的主要工作是学习基础视觉概念和上下文关系，并在预训练语言模型的指导下，初步建立图像与文本之间的对齐。NEO 架构采用了 Pre-Buffer（NEO 中新增的视觉层）和 Post-LLM（NEO 中的语言大脑）分离式预训练，这一阶段 Post-LLM 被冻结，Pre-Buffer 需要从头开始学习视觉感知能力，这保护了语言模型不被低质量的图像 - 文本对破坏，实现跨模态学习。这一阶段使用了约 3.45 亿的网络和合成的图像 - 文本对的数据。

中期训练阶段的核心目标是强化视觉与语言能力的对齐，提升模型对高分辨率图像、复杂场景、小物体和 OCR 文本的感知能力。这一阶段的训练数据来自 InternVL-1.5 的预训练语料库，包含 4000 万样本数据，整个架构使用相同的损失函数进行更新，以巩固视觉 - 语言对齐。

在监督微调阶段，NEO 能够遵循复杂指令、进行多轮对话和执行多样化任务，更适用于实际应用。研究人员使用约 400 万高质量、多来源的指令数据，涵盖视觉问答、多模态对话、数学推理、知识问答等多种任务。

阶段式训练不仅防止了视觉训练破坏已有的语言能力，确保稳定优化，还能实现模型能力从基础的视觉概念到复杂指令的平滑过渡。

结语：正探索 NEO 规模化和突破数据瓶颈，拓展多模态应用边界

NEO 系列模型实现了模型数据训练的高效性，其性能在同等参数规模原生 VLM 模型中处于领先地位。在图表和文档结构化理解上，NEO 模型具有明显优势和竞争力。受制于训练数据和计算资源，NEO 模型仍表现出了媲美顶尖模块化 VLM 的实力。

NEO 模型还存在密集文本识别和理解能力的不足、依赖外部知识的短板。不过，研究人员指出这并非是架构的缺陷，而是训练数据集的覆盖范围、知识密集型样本、高质量数据的不足。

研究人员称，未来他们将会探索更大规模的 NEO 模型，解决知识和文本理解短板，开发稀疏架构，探索视频、具身智能等新应用场景。

宙世代

一起剪

相关标签