i黑马 04-29
商汤发布并开源U1系列 单一模型架构能否撬动多模态市场
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

4 月 28 日,商汤科技发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该系列基于今年 3 月商汤自主研发的 NEO unify 架构,在单一模型上统一了多模态理解、推理与生成。

传统多模态模型多采用视觉编码器搭配语言骨干的拼接方式,存在信息损耗。SenseNova U1 去除了视觉编码器和变分自编码器,直接在像素上运行,重建统一表征空间。

该架构由商汤与南洋理工大学 S Lab 合作研发,让图像和文本在同一套表征体系中被直接处理,减少了模块间的信息损耗和延迟。

商汤本次开源的是轻量版 SenseNova U1 Lite,包含两个规格:基于稠密网络的 8B MoT 版本,以及采用混合专家架构的 A3B MoT 版本。

相关代码已在 GitHub 和 Hugging Face 平台上线。商汤表示,未来计划推出体量更大的版本并公布详细技术报告。

效率是该模型较为突出的特点。8B 参数规模下,它在多模态理解、生成与推理等多个维度上逼近甚至部分超越一些商业闭源模型。

在 AI2D 等理解基准中拿到 91.7 分,在复杂信息图生成任务中平均得分 50.7,是目前开源模型里表现最强的。

在通用图像生成测试中,生成质量可比肩 Qwen Image 2.0 Pro 或 Seedream 4.5,同时推理响应速度更快。

视觉推理方面,在 VBVR(UMM)测试中拿到 60.5 分,高于 Nano Bananaz 的 49.6。在 WISE 维度上取得 69.0 分,领先于 Qwen Image 的 63.0。

此外,SenseNova U1 支持连续性图文创作输出,只需单次单模型调用即可完成分步骤图文生成,图像风格保持高度连贯,这在行业内属首次实现。

该模型还表现出较强的物理空间理解能力,未来可应用于机器人系统,在单一模型闭环内完成环境感知、推理和任务执行。

商汤此次开源并非孤立行动。在国内开源大模型市场,阿里巴巴通义千问(Qwen)系列占据明显优势,截至 2026 年 3 月累计下载量突破 10 亿次,占全球开源模型总下载量 50% 以上。

DeepSeek 则通过持续的价格策略压低了 AI 调用成本。商汤选择在这个时间点开源 U1,市场分析认为其意图是从收取短期授权费转向构建开发者生态,复制阿里巴巴 Qwen 的路径,通过模型免费带动周边服务和基础设施实现商业变现。

开源能否帮助商汤在阿里 Qwen 已经占据主导的市场上打开局面,目前尚无定论。对商汤而言,关注点已从单一模型的技术指标,转向 SenseNova 整个生态系统的开发者活跃度和实际应用规模。

当技术架构的创新已经落地,接下来的问题在于开发者是否愿意迁移,以及与之配套的工具链和服务能否形成足够的黏性。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里巴巴 机器人 商汤科技 开源 商汤
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论