商汤发布并开源U1系列单一模型架构能否撬动多模态市场

4 月 28 日，商汤科技发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该系列基于今年 3 月商汤自主研发的 NEO unify 架构，在单一模型上统一了多模态理解、推理与生成。

传统多模态模型多采用视觉编码器搭配语言骨干的拼接方式，存在信息损耗。SenseNova U1 去除了视觉编码器和变分自编码器，直接在像素上运行，重建统一表征空间。

该架构由商汤与南洋理工大学 S Lab 合作研发，让图像和文本在同一套表征体系中被直接处理，减少了模块间的信息损耗和延迟。

商汤本次开源的是轻量版 SenseNova U1 Lite，包含两个规格：基于稠密网络的 8B MoT 版本，以及采用混合专家架构的 A3B MoT 版本。

相关代码已在 GitHub 和 Hugging Face 平台上线。商汤表示，未来计划推出体量更大的版本并公布详细技术报告。

效率是该模型较为突出的特点。8B 参数规模下，它在多模态理解、生成与推理等多个维度上逼近甚至部分超越一些商业闭源模型。

在 AI2D 等理解基准中拿到 91.7 分，在复杂信息图生成任务中平均得分 50.7，是目前开源模型里表现最强的。

在通用图像生成测试中，生成质量可比肩 Qwen Image 2.0 Pro 或 Seedream 4.5，同时推理响应速度更快。

视觉推理方面，在 VBVR（UMM）测试中拿到 60.5 分，高于 Nano Bananaz 的 49.6。在 WISE 维度上取得 69.0 分，领先于 Qwen Image 的 63.0。

此外，SenseNova U1 支持连续性图文创作输出，只需单次单模型调用即可完成分步骤图文生成，图像风格保持高度连贯，这在行业内属首次实现。

该模型还表现出较强的物理空间理解能力，未来可应用于机器人系统，在单一模型闭环内完成环境感知、推理和任务执行。

商汤此次开源并非孤立行动。在国内开源大模型市场，阿里巴巴通义千问（Qwen）系列占据明显优势，截至 2026 年 3 月累计下载量突破 10 亿次，占全球开源模型总下载量 50% 以上。

DeepSeek 则通过持续的价格策略压低了 AI 调用成本。商汤选择在这个时间点开源 U1，市场分析认为其意图是从收取短期授权费转向构建开发者生态，复制阿里巴巴 Qwen 的路径，通过模型免费带动周边服务和基础设施实现商业变现。

开源能否帮助商汤在阿里 Qwen 已经占据主导的市场上打开局面，目前尚无定论。对商汤而言，关注点已从单一模型的技术指标，转向 SenseNova 整个生态系统的开发者活跃度和实际应用规模。

当技术架构的创新已经落地，接下来的问题在于开发者是否愿意迁移，以及与之配套的工具链和服务能否形成足够的黏性。

宙世代