带宽战争前夜，“中国版Groq”浮出水面

在 AI 算力赛道，英伟达凭借 Hopper、Blackwell、Rubin 等架构 GPU，早已在 AI 训练领域建立起了难以撼动的技术壁垒与行业地位。但随着即时 AI 场景需求爆发，传统 GPU 在面对低批处理、高频交互推理任务中的延迟短板愈发凸显。

为破解这一痛点，英伟达重磅出击，斥资 200 亿美元收购 Groq 核心技术，抢跑 AI 推理市场。

这一金额不仅创下英伟达历史最大手笔交易、刷新了推理芯片领域的估值纪录，更鲜明地昭示着英伟达从 " 算力霸主 " 向 " 推理之王 " 转型的意志。

紧随这一动作，据技术博主 AGF 消息进一步披露，英伟达计划在 2028 年推出新一代 Feynman 架构 GPU ——采用台积电 A16 先进制程与 SoIC 3D 堆叠技术，核心目的正是为了在 GPU 内部深度集成 Groq 那套专为推理加速而生的 LPU（语言处理单元），相当于给 GPU 加装了一个专门处理语言类推理任务的专属引擎，直指 AI 推理性能中长期存在的 " 带宽墙 " 与 " 延迟瓶颈 "。

这些动作表明：AI 行业的竞争正从单纯的算力比拼，转向对单位面积带宽的极致追求——这与英伟达此前 " 大模型推理 90% 的延迟源于数据搬运，导致算力利用率常低于 30%" 的结论不谋而合。

无独有偶，AMD 通过 3D V-Cache 持续验证存储靠近计算的效能逻辑；d-Matrix、SambaNova 等明星 AI 推理芯片公司，更是聚焦流式执行与片上带宽构建核心竞争力，用实际行动印证这一行业共识。

带宽战争打响，谁是 " 中国版 Groq"？

回看中国市场，AI 浪潮推动下，国产大模型多点突破、强势崛起，本土 AI 芯片企业集体爆发并密集冲击 IPO，资本热度居高不下。

然而，当英伟达选择通过 Feynman 架构来补齐推理短板时，就意味着谁能率先解决 " 带宽墙 " 问题，谁就握住了下一轮周期的入场券。

在这一背景下，国内赛道涌现出前瞻性布局者。

近日，半导体行业观察注意到，一家源于北京大学物理学院的 AI 芯片公司——寒序科技（ICY Technology），宣布完成数千万元人民币新一轮融资。这家企业以 " 超高带宽推理芯片 " 为核心产品，被业内视为中国大陆少有的在技术路线层面正面对标 Groq 的前沿技术团队。

" 中国版 Groq" 的名号，初见端倪。

实际上，寒序科技的技术披露并非偶然，而是源于在内部保密原则下的长期的低调深耕。

早在 2024 年 9 月与 2025 年 11 月，寒序科技就已联合北京大学物理学院、计算机学院、集成电路学院，以及澳门大学模拟与混合信号集成电路全国重点实验室，先后承担、主持两项北京市科技计划项目。他们前瞻性地锁定 0.1TB/mm ² /s 超大带宽流式推理芯片研发，在省部级重大研发任务中，在北京市科学技术委员会的指导下，在任务书中全面对标 Groq 的技术路线与带宽指标。

这意味着，当 Groq 因 LPU 爆红被视为 " 推理新范式 " 时，中国科研与产业团队已在国内同步推进一条差异化的实现路径。

据了解，寒序科技采用 " 双线布局 " 构建核心竞争力：一方面，已发布 SpinPU-M 系列磁概率计算芯片，推出 1024 比特全连接伊辛退火求解硬件，覆盖组合优化与量子启发式计算市场；另一方面，本轮融资的核心看点—— SpinPU-E 磁逻辑计算芯片系列，直指大模型推理解码（Decode）阶段加速，以片上 MRAM（磁性随机存储器）为核心介质，构建超高带宽磁性流式处理架构。

能看到，寒序科技并未跟随主流 GPU 的片外 DRAM/HBM 或 Groq 的存算一体 SRAM 方案，而是选择了片上 MRAM 这条更底层、更物理本征、更具长期想象力的技术路线。

众所周知，当前主流的 AI 计算范式面临多重困境：采用 HBM 的 GPU 方案，带宽受限于昂贵的 2.5D/3D 先进封装，核心存储器件 HBM 产能被海外巨头垄断且面临出口管制；采用 SRAM 的 Groq 方案，则因 SRAM 单元面积大、成本高，单芯片存储容量有限，难以规模部署千亿参数大模型。

面对这些行业普遍的困局，寒序科技源自北大物理学院，从凝聚态物理的角度，从第一性原理进行思考，利用本征功耗更低、速度更快的 " 电子自旋翻转 "，代替 " 电子电荷运动 " 来进行存储与计算。

而这种底层逻辑的革新，正是源于 MRAM 技术带来的核心优势。它兼具 SRAM 的高速、DRAM 的高密度与闪存的非易失性等优势，其直立结构的磁性隧道结，通过垂直微型化和 CMOS 工艺兼容性，能够大幅降低对复杂封装的依赖，在成本、功耗和可靠性上具有显著优势。

与 SRAM 方案相比，MRAM 技术的差异化优势十分突出：

存储密度领先：主流 AI 推理架构深度依赖片上 SRAM 以换取高速，但 SRAM 正面临严峻的微缩困境。传统 SRAM 每个存储单元由 6 个晶体管（6T）组成，存储密度低，存储容量小，存储典型的 DeepSeek-R1-671B 大语言模型可能需要数千片 Groq LPU 芯片，且 5nm 以下节点尺寸几乎停止缩减；而 MRAM 天然采用 1T1M（1 个晶体管 +1 个磁隧道结）结构，单个 MTJ 可以执行 SRAM 6 个晶体管的存储功能，同等芯片面积和工艺节点下，存储密度是 SRAM 的 5-6 倍。

工艺成本更低：MRAM 的物理结构优势，使其在国产工艺制程即便落后一代的情况下，性能指标也能对标甚至超越采用先进制程的 SRAM 方案。这意味着 MRAM 无需追逐极先进制程，大幅降低流片与量产成本（单片成本可降至原来的十分之一以下），同时保障了供应链自主可控。

非易失性与高能效：MRAM 断电后数据不丢失，无需像 SRAM/DRAM 那样持续刷新，待机功耗接近零，具备快速启动、低待机功耗、高耐用性等优势；同时避免了 SRAM 的漏电流损耗，为边缘端和云端的大规模部署提供极佳能效优势，大幅降低运行成本。

通过自研的磁性存算一体流式架构，寒序科技将 MRAM 的器件优势转化为芯片级系统性能。据悉，SpinPU-E 芯片架构的目标是将访存带宽密度提升至 0.1-0.3TB/mm ²· s，不仅能比肩以 " 快 " 成名的 Groq LPU（0.11 TB/mm ²· s），更是英伟达 H100（0.002-0.003 TB/mm ²· s）的数十倍。

据了解，英伟达 GPU 的架构最初面向大规模训练与图形渲染场景设计，强调峰值算力与吞吐能力，并通过多级缓存、动态调度和共享存储来适配高度并行但相对粗粒度的工作负载。在大模型推理的 Decode 阶段，GPU 性能瓶颈主要来自对外部存储（HBM）和复杂内存层级的高度依赖。该计算过程呈现出强序列性、小批量和带宽主导等特征，与 GPU 设计初衷明显错配。在实际执行中，GPU 仍需要通过多级缓存和共享存储来访问，数据到达计算单元的时间并不固定，不同计算单元之间也需要反复等待和协调。这使得访存延迟和执行顺序经常波动，矩阵加乘单元很难按照固定节拍持续运行，算力难以稳定发挥。

而寒序科技采用确定性的 " 磁性流式处理（MSA）架构 "，将大规模 MRAM Banks 紧邻矩阵加乘单元部署，并围绕推理数据流构建多级流水执行路径，使权重和中间激活在局部高带宽范围内按固定顺序流动。通过在硬件层面同时约束存储位置、访存带宽、通信路径与执行节拍，该架构在 Decode 阶段显著降低了延迟抖动与外部存储访问依赖，实现更高的带宽与更快、更稳定的推理性能。

值得关注的是，MSA 架构并非简单的存内计算概念，而是围绕推理场景，对数据流组织、存储 - 计算耦合方式以及执行节拍进行重新设计，在保证超高带宽的同时，显著降低对先进制程与复杂封装的依赖。

有业内人士指出，这一路线与 NVIDIA 在 Feynman 架构中所释放的信号高度一致：未来推理性能的竞争核心，不再是算力规模，而是单位面积带宽与执行范式。

走出北大实验室的秘密武器——

" 天时地利人和 "

SpinPU-E 展现出的性能优势，并非偶然的技术选择，而是核心团队跨学科积淀、全链条技术把控与前瞻性路线布局的成果。

据报道，寒序科技是国内首个有能力跑通从物理、材料、器件到异质集成、芯片设计、算法的交叉团队，核心成员源自北京大学物理学院应用磁学中心——国内磁学研究的顶尖高地，拥有近 70 年的磁学积淀，核心成员横跨凝聚态物理、电子科学、计算机技术、人工智能等多领域：首席执行官朱欣岳兼具凝聚态物理、人工智能算法与集成电路的交叉背景，曾主导多模态 AI 算法开发、多颗高性能专用芯片研发，带领团队完成四轮市场化财务融资与产品化；首席科学家罗昭初作为 MIT TR35 入选者，曾于清华大学、苏黎世联邦理工学院完成自旋电子学、磁性计算的科研工作，深耕微纳磁电子学与磁存储 / 计算，拥有深厚的学术积累与 Nature、Science 正刊成果，团队历经多次流片验证，既保有前沿技术探索的锐气，又具备工程化落地的能力。

相比纯粹的架构创新，寒序科技这种 " 材料 - 器件 - 芯片 - 系统 - 算法 " 的全链条视野和全栈攻关能力，让 MRAM 技术得以从底层原理到上层系统实现协同优化与突破，而非仅停留在逻辑和架构层面的修补。

这也是寒序科技被视为精准踩中 2030 年行业时间轴的前瞻性下注的核心原因。这种对行业趋势的精准踩点，不仅体现在技术路线的选择上，或许也蕴含在对商业化路径的思考中。

回溯 Groq 的成长轨迹来看，其业务从核心的 GroqChip LPU 推理芯片起步，逐步延伸至加速卡、服务器系统、数据中心集群，最终构建了云服务平台，形成了 " 芯片 - 硬件 - 系统 - 云服务 " 的全栈布局。

沿着 Groq 被验证的商业逻辑向前推演，寒序科技大概也会沿着相似的路径开展自己的业务版图——以 SpinPU-E 磁逻辑芯片为起点，向上构建硬件产品矩阵，最终通过云服务触达更广泛市场的全栈路径，以构建更强的技术壁垒和产业竞争力。

更关键的是，这条路径并非简单的模式复刻，而是基于本土产业现状的创新破局——当行业苦于 HBM 成本高企、SRAM 微缩放缓之时，寒序科技没有陷入 " 算力堆砌 " 的内卷，而是利用 MRAM 磁性计算新范式，在中国本土成熟供应链基础上，筑起了一座对标全球顶尖推理性能的带宽高地。

这种从底层物理原理出发的差异化竞争策略，或许正是其作为 " 中国版 Groq" 浮出水面的核心底气。

MRAM 开启新型存储 " 黄金时代 "

破局 " 带宽封锁 "

寒序科技对 MRAM 技术的探索并非孤例，背后是一场从 " 备选 " 走向 " 必选 " 的新型存储技术浪潮。尤其是在全球半导体产业的演进与地缘政治激荡背景下，为 MRAM 在内的新型存储铺就了一条通往 AI 算力核心舞台的 " 黄金赛道 "。

2024 年 12 月，美国商务部工业与安全局（BIS）发布新出口管制规则，明确限制向中国出口内存带宽密度超过 2GB/s/mm ² 的尖端存储器。

这一封锁点，直指 AI 推理芯片的命门——带宽。

目前，英伟达、AMD 等巨头极度依赖 HBM，而 HBM 产能几乎被 SK 海力士、三星、美光等海外存储原厂垄断，且受限于复杂的 2.5D/3D 先进封装。同时，Groq 所代表的 SRAM 路线价格极高（Groq 230MB 片上 SRAM 内存的单卡售价 2 万美金），在先进制程微缩上也已近极限。

在此背景下，MRAM 路线的战略价值陡增。它不仅在物理特性上具备跨代超越 SRAM 的潜力，更重要的是，它能基于国产 28nm/22nm 等成熟制程实现超高带宽，彻底规避对尖端工艺和海外 HBM 供应链的依赖。这不仅是技术路线的 " 备选 "，更是中国半导体产业在算力领域破除卡脖子困境、实现差异化突围的 " 必选 "。

有业内专家表示，这一战略意义迫切需要国家有关部门给予更高重视与政策倾斜。MRAM 不仅是单一存储技术的革新，更能带动磁性材料、磁电子器件、存算一体架构等全产业链突破，有望彻底改变国内在 HBM 领域的落后局面和 SRAM 对先进制程的依赖，为 AI 算力产业打造自主可控的 " 第二曲线 "。

全球共振，商业化拐点已至？

当前，产业界正在用实际行动表明，MRAM 不再只是实验室里的美好构想，而是凭借独特优势正成为全球半导体产业布局的重点。

其中，晶圆代工龙头与芯片大厂均在积极布局：台积电、三星、英特尔、SK 海力士、IMEC 等凭借其先进的技术研发和大规模生产制造能力，已明确将嵌入式 MRAM 推进到 22nm、16nm 甚至更先进节点，持续提升 MRAM 的性能和集成度。

恩智浦与台积电合作推出 16nm FinFET 车规级 eMRAM，应用于其 S32 系列高端 MCU，实现写入速度比传统闪存快 10-15 倍、耐久性超百万次；瑞萨电子也推出了基于 22nm 工艺的 STT-MRAM 技术，瞄准汽车 MCU 市场；GlobalFoundries、Everspin 在 12nm 和 22nm 工艺上紧密合作，将 MRAM 纳入工业级和车规级量产方案；Avalanche 与联电携手合作推出 22nm STT-MRAM，在工业级和航天级市场拥有深厚积淀。

据 LexisNexis 数据统计，2004-2013 年间，MRAM 市场的专利申请量保持稳定，每年约有 300 至 400 项专利申请。需要注意的是，图表末尾的下降并不代表兴趣的下降，而是专利申请和公开之间的时间存在滞后。

这些头部厂商的集体行动，清晰印证着 MRAM 正从 " 备选技术 " 升级为 " 主流方案 "，在汽车电子、边缘 AI、高端计算等领域的商业化落地进入爆发前夜。

回看国内市场，本土半导体厂商同样敏锐捕捉到了新型存储技术的发展机遇，积极布局相关领域。

RRAM 领域涌现出昕原半导体、铭芯启睿、燕芯微等玩家；MRAM 赛道，寒序科技、致真存储、驰拓科技、凌存科技、亘存科技等纷纷崭露头角，为国内 MRAM 的发展奠定了产业基础。相对于 RRAM 基于电子电荷迁移，是一种统计物理范畴下的阻变器件；MRAM 的存取机理是基于自旋的确定性两态翻转，更加可控、精准，大规模制造下器件一致性、器件寿命极限都更有优势与潜力。两者均被台积电等半导体巨头作为下一代面向 AI 的存储技术重点押注。

具体来看，本土 MRAM 厂商各有侧重，多数主要集中于存储、加密、嵌入式控制等传统领域，例如：致真存储专注于磁性隧道结（MTJ）的核心器件研发与制造工艺，掌握从材料研发到器件制造的全链路技术，拥有国内唯一的 8 英寸磁存储芯片专用后道微纳加工工艺中试线。近期与北京航空航天大学联合攻关，研制出全球首颗 8Mb 容量自旋轨道力矩磁随机存储器芯片（SOT-MRAM），实现 SOT-MRAM 容量规模化突破。

驰拓科技专注于 MRAM 存储芯片的技术研发与生产制造，建有 12 英寸 MRAM 量产中试线，是国内首家实现 MRAM 量产的企业。近期成功突破垂直磁化体系技术瓶颈，存储器件 TMR 关键指标比肩国际头部代工厂量产的 STT-MRAM。

凌存科技专注于存储模块开发，致力于将 MRAM 技术从核心器件层面推向终端应用，成功开发了世界首款高速、高密度、低功耗的存储器 MeRAM 原型机及基于 MeRAM 的真随机数发生器芯片，产品广泛应用于车载电子、高性能运算、安全等领域。

寒序科技则独辟蹊径，与多数国内 MRAM 企业不同，其以 MRAM 为核心介质构建计算芯片，将 MRAM 的物理优势转化为算力与带宽优势，开辟了 " 磁性计算 " 这一全新赛道，致力于从计算层面引领国内 MRAM 技术从利基低毛利领域向高端市场跨越，成为国内 MRAM 技术从存储替代向计算革新跨越的关键力量，举起大旗与国内磁学领域全面拥抱合作，力争一同抢占全球 " 磁计算 " 的战略高地。

综合来看，从器件、设备、制造到系统应用，国内产业链的前期布局已具备支撑本土 MRAM 技术产业化与生态发展的基础。尤其是寒序科技的差异化定位，进一步填补了国内 MRAM 从存储到计算的关键空白，为后续诞生更多行业厂商提供了土壤和必然性。

生态共建：国产 MRAM 的 " 磁计算 " 革命

根据市场研究机构 Precedence Research 数据显示，2024 年全球 MRAM 市场规模估计为 42.2 亿美元，预计从 2025 年的 57.6 亿美元增长到 2034 年的约 847.7 亿美元，复合年增长率高达 34.99%。

虽然前景广阔，但 MRAM 的大规模爆发和商业化落地仍需产业合力，需要产业链上下游凝聚共识，共同构建生态。结合国际经验和国内产业的发展现状来看，更深度的产业合作与资源倾斜或许是推动 MRAM 技术发展的有力举措。

例如，国家有关部门可以给予 MRAM 技术更多重视，加大资金与政策支持，积极推动 MRAM 这一有希望在带宽领域实现 " 变道超车 " 的关键技术。

同时，借鉴台积电、三星、GlobalFoundries 等头部厂商对 MRAM 的关注与投入力度，国内代工厂或许也应加强对 MRAM 的工艺研发与资源投入，积极与国内厂商共同开展技术研发与工艺优化，争取尽早打通 " 设计 - 制造 - 封测 " 的本土化链路，形成协同创新的合力，降低 MRAM 芯片的流片成本与量产门槛。

还有一点不可忽视。英伟达收购 Groq 核心技术，计划在 Feynman 架构中整合 LPU 单元的案例，充分证明了 " 通用算力 + 专用引擎 " 的协同优势和行业趋势。

这一案例极具启示价值。笔者认为，在未来提升 AI 推理效率的行业共识下，国内 AI 芯片厂商应抓住这一变革机遇，加强与在新型介质与架构上具备底层创新能力的团队的合作力度，打造兼具通用算力与专用推理性能的新技术路径，快速补强技术短板，构建差异化竞争力。

产业界正释放清晰信号：以 MRAM 为代表的新型存储，已成为后摩尔时代的核心焦点。地缘政治的战略诉求、国际大厂的技术押注、国内产业链的长期积淀，再加上寒序科技的差异化突破，多重力量共振之下，MRAM 正逐渐迈入产业化的 " 黄金时代 "，有望成为中国 AI 芯片产业实现换道超车的关键抓手。

五年后，谁将主导下一代推理芯片？

当摩尔线程、沐曦、天数、壁仞等国产 AI 芯片公司接连叩响资本市场的大门，一个时代的答卷已然清晰。它们的密集上市，标志着中国在基于传统 GPU 架构的算力竞赛中，完成了从无到有的突围，进入了国产替代的收获期。

如果说上一代 AI 芯片的竞争是 " 算力竞赛 "，那么下一代的分水岭将是 " 谁能率先跨过带宽墙 "。

在这个关键转折点上，两条路径清晰呈现：一条是 Groq 选择的极致 SRAM 片上集成路径，用极高成本将带宽推向极限，并因此获得了行业霸主英伟达以数百亿美元估值的战略整合；另一条，则是以 MRAM 为代表的新型存储介质路线，为突破带宽瓶颈提供了一种更具根本性，也更符合长期成本与供应链安全需求的方案。

数年后，当 AI 推理进入 " 带宽决胜 " 的新时代，芯片市场或许不再仅有算力的巨兽，主导市场的佼佼者还将属于那些能够率先在 " 带宽战争 " 中沉淀出护城河的先行者。

正如 Groq 在硅谷用 SRAM 惊艳了世界，行业演进的逻辑暗示：" 中国版 Groq" 的出现也将不再是悬念。

在这个征程中，中国半导体产业各方也都在积极拥抱 AI，拓展产品品类，谋划新的增长曲线。而寒序科技正依托 MRAM 磁性计算的新范式，给出 " 中国版 " 的实现路径——并且，这条路，他们早在多年前，就已开始默默铺设。

* 免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

END

今天是《半导体行业观察》为您分享的第 4288 期内容，欢迎关注。

推荐阅读