文汇 21小时前
业界首个!记忆张量 × 商汤大装置:国产GPGPU推理成本反超 A100
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

记忆张量科技有限公司与商汤科技大装置团队联合宣布,成功在国产 GPGPU 集群上实现了业界首个以 " 记忆—计算—调度 " 一体化为核心的 PD 分离商用推理集群,并在真实生产环境中稳定运行。测试数据显示,该方案综合推理性价比达到同代英伟达 A100 的 150%,标志着国产算力体系在大模型商业化落地方面首次具备了体系级竞争力。

此次突破为国产算力生态找到了差异化突破路径。PD 分离从硬件优化升级为记忆中心的设计范式。在 MemOS 体系中,分离架构可延伸至行为预测、上下文规划、记忆布局等更高维度,成为整体架构的有机组成部分。这也预示着 C 端场景正式进入 " 记忆推理 " 时代。

突破性能天花板

在过去一年中,"PD 分离 "(Prefill 与 Decode 分离)已成为大模型推理优化的关键技术方向。然而,单纯依靠硬件层面的隔离,其性能提升存在天然上限。随着 DeepSeek-R1 等高性能模型从 B 端走向 C 端大规模应用," 记忆 " 已成为影响用户体验与成本结构的核心变量。

记忆张量旗下核心产品 MemOS 作为业内首个以记忆为中心的系统级基础设施,创新性地将大模型认知结构划分为参数记忆、激活记忆、明文记忆三类,形成了跨时间尺度的智能调度链路。该系统能够精细决策哪些计算应前移至 Prefill 阶段,哪些必须留在 Decode 环节,以及任务的保留、降级或淘汰策略。

" 只有当 PD 分离与记忆结构深度耦合,重构‘记忆—计算—调度’整体体系,才有机会真正突破传统性能上限。" 记忆张量技术负责人表示。MemOS 与 PD 分离的结合,本质上是为高速算力通道配上了一套精密的 " 交通指挥系统 ",将分离架构的潜力发挥到极致。

从优化技巧到推理范式

本次合作中,商汤大装置提供了系统级基础设施支撑,其 IaaS 层高效算力池与智能调度能力为模型推理提供了稳定底座。Ignite 框架则实现了多后端推理适配、KVCache 优化、关键算子加速等性能增强,形成了完整推理优化链路。

算丰信息为集群提供了核心算力支持,管理所有高性能 GPGPU 计算资源、大规模存储及高速互联网络,确保了 PD 分离架构的高效稳定运行。

在这一联合架构中,MemOS 的记忆体系映射为了清晰的物理分工:

P 域(Prefill Domain) 成为 " 记忆工厂 ",专注于影子上下文预测与 KV Cache 批量预生成,这类吞吐敏感型任务得以集中处理,不再干扰实时交互;

D 域(Decode Domain) 则扮演 " 实时交互前台 ",专注于用户请求解码,确保首字生成时间(TTFT)的超低延迟;

跨节点 KV Cache 通过高带宽互联与零拷贝路径实现 " 即产即用 ",MemOS 的激活记忆机制与商汤大装置的通信优化形成互补,极大降低了传输开销。

" 这是一次体系级的结构共振," 商汤大装置架构师指出,"PD 分离为 MemOS 提供了高速算力通道,而 MemOS 则为 PD 分离注入了精细到记忆单元的业务调度逻辑。"

全面超越传统架构

在严格的生产级评测环境下(包括 2k 输入、1k 输出、TTFT<2s 的 SLA 约束、72 小时稳态运行),该联合方案交出了令人瞩目的成绩单:

集群整体吞吐量提升 75%,从基础部署的 107.85 tokens/s 跃升至 189.23 tokens/s;单卡并发能力提升 20%,从每卡 25.00 并发提升至 29.42 并发,显著增强了 C 端高并发场景的承载能力;TTFT 全程稳定小于 2 秒,Decode 域因职责单一化而避免了资源抢占……综合推理性价比达到同代英伟达 A100 的 150%,在相同负载与 SLA 约束下实现了体系级正面超越。

" 这些数据表明,国产 GPU 已不再只是‘能跑大模型’的替代选项,而是真正具备了承载 R1 级 C 端业务的体系能力。" 记忆张量商业化负责人说。

打造记忆原生 AI 基础设施

基于此次成功实践,记忆张量与商汤科技计划在以下方向深化合作:

一方面,将围绕更大规模国产 GPGPU 集群,构建完整的记忆驱动流水线推理底座,形成 " 影子上下文—激活记忆— PD 分离—多级缓存— AIOps" 的可观测、可演进基础设施体系。

另一方面,双方将在 Prefill 行为预测自治化、多级记忆管理、跨任务长时记忆一致性、Agent 轨迹记忆等前沿方向持续探索,为伴随式 AI、具身智能及复杂任务编排提供支撑。

从更宏观视角看,此次突破标志着国产算力体系正从 " 参数计算 " 走向 " 记忆计算 ",从 " 静态推理 " 走向 " 动态流水线 ",从 " 模型中心 " 走向 " 记忆中心 "。在 AI 技术快速演进的下半场,国产算力基础设施不再仅是追赶者,更有机会成为下一代推理范式的定义者之一。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

商汤 基础设施 物理 用户体验 英伟达
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论