半导体行业观察 01-15
带宽战争前夜,“中国版Groq”浮出水面
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在 AI 算力赛道,英伟达凭借 Hopper、Blackwell、Rubin 等架构 GPU,早已在 AI 训练领域建立起了难以撼动的技术壁垒与行业地位。但随着即时 AI 场景需求爆发,传统 GPU 在面对低批处理、高频交互推理任务中的延迟短板愈发凸显。

为破解这一痛点,英伟达重磅出击,斥资 200 亿美元收购 Groq 核心技术,抢跑 AI 推理市场。

这一金额不仅创下英伟达历史最大手笔交易、刷新了推理芯片领域的估值纪录,更鲜明地昭示着英伟达从 " 算力霸主 " 向 " 推理之王 " 转型的意志。

紧随这一动作,据技术博主 AGF 消息进一步披露,英伟达计划在 2028 年推出新一代 Feynman 架构 GPU ——采用台积电 A16 先进制程与 SoIC 3D 堆叠技术,核心目的正是为了在 GPU 内部深度集成 Groq 那套专为推理加速而生的 LPU(语言处理单元),相当于给 GPU 加装了一个专门处理语言类推理任务的专属引擎,直指 AI 推理性能中长期存在的 " 带宽墙 " 与 " 延迟瓶颈 "。

这些动作表明:AI 行业的竞争正从单纯的算力比拼,转向对单位面积带宽的极致追求——这与英伟达此前 " 大模型推理 90% 的延迟源于数据搬运,导致算力利用率常低于 30%" 的结论不谋而合。

无独有偶,AMD 通过 3D V-Cache 持续验证存储靠近计算的效能逻辑;d-Matrix、SambaNova 等明星 AI 推理芯片公司,更是聚焦流式执行与片上带宽构建核心竞争力,用实际行动印证这一行业共识。

带宽战争打响,谁是 " 中国版 Groq"?

回看中国市场,AI 浪潮推动下,国产大模型多点突破、强势崛起,本土 AI 芯片企业集体爆发并密集冲击 IPO,资本热度居高不下。

然而,当英伟达选择通过 Feynman 架构来补齐推理短板时,就意味着谁能率先解决 " 带宽墙 " 问题,谁就握住了下一轮周期的入场券。

在这一背景下,国内赛道涌现出前瞻性布局者。

近日,半导体行业观察注意到,一家源于北京大学物理学院的 AI 芯片公司——寒序科技(ICY Technology),宣布完成数千万元人民币新一轮融资。这家企业以 " 超高带宽推理芯片 " 为核心产品,被业内视为中国大陆少有的在技术路线层面正面对标 Groq 的前沿技术团队。

" 中国版 Groq" 的名号,初见端倪。

实际上,寒序科技的技术披露并非偶然,而是源于在内部保密原则下的长期的低调深耕。

早在 2024 年 9 月与 2025 年 11 月,寒序科技就已联合北京大学物理学院、计算机学院、集成电路学院,以及澳门大学模拟与混合信号集成电路全国重点实验室,先后承担、主持两项北京市科技计划项目。他们前瞻性地锁定 0.1TB/mm ² /s 超大带宽流式推理芯片研发,在省部级重大研发任务中,在北京市科学技术委员会的指导下,在任务书中全面对标 Groq 的技术路线与带宽指标。

这意味着,当 Groq 因 LPU 爆红被视为 " 推理新范式 " 时,中国科研与产业团队已在国内同步推进一条差异化的实现路径。

据了解,寒序科技采用 " 双线布局 " 构建核心竞争力:一方面,已发布 SpinPU-M 系列磁概率计算芯片,推出 1024 比特全连接伊辛退火求解硬件,覆盖组合优化与量子启发式计算市场;另一方面,本轮融资的核心看点—— SpinPU-E 磁逻辑计算芯片系列,直指大模型推理解码(Decode)阶段加速,以片上 MRAM(磁性随机存储器)为核心介质,构建超高带宽磁性流式处理架构。

能看到,寒序科技并未跟随主流 GPU 的片外 DRAM/HBM 或 Groq 的存算一体 SRAM 方案,而是选择了片上 MRAM 这条更底层、更物理本征、更具长期想象力的技术路线。

众所周知,当前主流的 AI 计算范式面临多重困境:采用 HBM 的 GPU 方案,带宽受限于昂贵的 2.5D/3D 先进封装,核心存储器件 HBM 产能被海外巨头垄断且面临出口管制;采用 SRAM 的 Groq 方案,则因 SRAM 单元面积大、成本高,单芯片存储容量有限,难以规模部署千亿参数大模型。

面对这些行业普遍的困局,寒序科技源自北大物理学院,从凝聚态物理的角度,从第一性原理进行思考,利用本征功耗更低、速度更快的 " 电子自旋翻转 ",代替 " 电子电荷运动 " 来进行存储与计算。

而这种底层逻辑的革新,正是源于 MRAM 技术带来的核心优势。它兼具 SRAM 的高速、DRAM 的高密度与闪存的非易失性等优势,其直立结构的磁性隧道结,通过垂直微型化和 CMOS 工艺兼容性,能够大幅降低对复杂封装的依赖,在成本、功耗和可靠性上具有显著优势。

与 SRAM 方案相比,MRAM 技术的差异化优势十分突出:

存储密度领先:主流 AI 推理架构深度依赖片上 SRAM 以换取高速,但 SRAM 正面临严峻的微缩困境。传统 SRAM 每个存储单元由 6 个晶体管(6T)组成,存储密度低,存储容量小,存储典型的 DeepSeek-R1-671B 大语言模型可能需要数千片 Groq LPU 芯片,且 5nm 以下节点尺寸几乎停止缩减;而 MRAM 天然采用 1T1M(1 个晶体管 +1 个磁隧道结)结构,单个 MTJ 可以执行 SRAM 6 个晶体管的存储功能,同等芯片面积和工艺节点下,存储密度是 SRAM 的 5-6 倍。

工艺成本更低:MRAM 的物理结构优势,使其在国产工艺制程即便落后一代的情况下,性能指标也能对标甚至超越采用先进制程的 SRAM 方案。这意味着 MRAM 无需追逐极先进制程,大幅降低流片与量产成本(单片成本可降至原来的十分之一以下),同时保障了供应链自主可控。

非易失性与高能效:MRAM 断电后数据不丢失,无需像 SRAM/DRAM 那样持续刷新,待机功耗接近零,具备快速启动、低待机功耗、高耐用性等优势;同时避免了 SRAM 的漏电流损耗,为边缘端和云端的大规模部署提供极佳能效优势,大幅降低运行成本。

通过自研的磁性存算一体流式架构,寒序科技将 MRAM 的器件优势转化为芯片级系统性能。据悉,SpinPU-E 芯片架构的目标是将访存带宽密度提升至 0.1-0.3TB/mm ²· s,不仅能比肩以 " 快 " 成名的 Groq LPU(0.11 TB/mm ²· s),更是英伟达 H100(0.002-0.003 TB/mm ²· s)的数十倍。

据了解,英伟达 GPU 的架构最初面向大规模训练与图形渲染场景设计,强调峰值算力与吞吐能力,并通过多级缓存、动态调度和共享存储来适配高度并行但相对粗粒度的工作负载。在大模型推理的 Decode 阶段,GPU 性能瓶颈主要来自对外部存储(HBM)和复杂内存层级的高度依赖。该计算过程呈现出强序列性、小批量和带宽主导等特征,与 GPU 设计初衷明显错配。在实际执行中,GPU 仍需要通过多级缓存和共享存储来访问,数据到达计算单元的时间并不固定,不同计算单元之间也需要反复等待和协调。这使得访存延迟和执行顺序经常波动,矩阵加乘单元很难按照固定节拍持续运行,算力难以稳定发挥。

而寒序科技采用确定性的 " 磁性流式处理(MSA)架构 ",将大规模 MRAM Banks 紧邻矩阵加乘单元部署,并围绕推理数据流构建多级流水执行路径,使权重和中间激活在局部高带宽范围内按固定顺序流动。通过在硬件层面同时约束存储位置、访存带宽、通信路径与执行节拍,该架构在 Decode 阶段显著降低了延迟抖动与外部存储访问依赖,实现更高的带宽与更快、更稳定的推理性能。

值得关注的是,MSA 架构并非简单的存内计算概念,而是围绕推理场景,对数据流组织、存储 - 计算耦合方式以及执行节拍进行重新设计,在保证超高带宽的同时,显著降低对先进制程与复杂封装的依赖。

有业内人士指出,这一路线与 NVIDIA 在 Feynman 架构中所释放的信号高度一致:未来推理性能的竞争核心,不再是算力规模,而是单位面积带宽与执行范式。

走出北大实验室的秘密武器——

" 天时地利人和 "

SpinPU-E 展现出的性能优势,并非偶然的技术选择,而是核心团队跨学科积淀、全链条技术把控与前瞻性路线布局的成果。

据报道,寒序科技是国内首个有能力跑通从物理、材料、器件到异质集成、芯片设计、算法的交叉团队,核心成员源自北京大学物理学院应用磁学中心——国内磁学研究的顶尖高地,拥有近 70 年的磁学积淀,核心成员横跨凝聚态物理、电子科学、计算机技术、人工智能等多领域:首席执行官朱欣岳兼具凝聚态物理、人工智能算法与集成电路的交叉背景,曾主导多模态 AI 算法开发、多颗高性能专用芯片研发,带领团队完成四轮市场化财务融资与产品化;首席科学家罗昭初作为 MIT TR35 入选者,曾于清华大学、苏黎世联邦理工学院完成自旋电子学、磁性计算的科研工作,深耕微纳磁电子学与磁存储 / 计算,拥有深厚的学术积累与 Nature、Science 正刊成果,团队历经多次流片验证,既保有前沿技术探索的锐气,又具备工程化落地的能力。

相比纯粹的架构创新,寒序科技这种 " 材料 - 器件 - 芯片 - 系统 - 算法 " 的全链条视野和全栈攻关能力,让 MRAM 技术得以从底层原理到上层系统实现协同优化与突破,而非仅停留在逻辑和架构层面的修补。

这也是寒序科技被视为精准踩中 2030 年行业时间轴的前瞻性下注的核心原因。这种对行业趋势的精准踩点,不仅体现在技术路线的选择上,或许也蕴含在对商业化路径的思考中。

回溯 Groq 的成长轨迹来看,其业务从核心的 GroqChip LPU 推理芯片起步,逐步延伸至加速卡、服务器系统、数据中心集群,最终构建了云服务平台,形成了 " 芯片 - 硬件 - 系统 - 云服务 " 的全栈布局。

沿着 Groq 被验证的商业逻辑向前推演,寒序科技大概也会沿着相似的路径开展自己的业务版图——以 SpinPU-E 磁逻辑芯片为起点,向上构建硬件产品矩阵,最终通过云服务触达更广泛市场的全栈路径,以构建更强的技术壁垒和产业竞争力。

更关键的是,这条路径并非简单的模式复刻,而是基于本土产业现状的创新破局——当行业苦于 HBM 成本高企、SRAM 微缩放缓之时,寒序科技没有陷入 " 算力堆砌 " 的内卷,而是利用 MRAM 磁性计算新范式,在中国本土成熟供应链基础上,筑起了一座对标全球顶尖推理性能的带宽高地。

这种从底层物理原理出发的差异化竞争策略,或许正是其作为 " 中国版 Groq" 浮出水面的核心底气。

MRAM 开启新型存储 " 黄金时代 "

破局 " 带宽封锁 "

寒序科技对 MRAM 技术的探索并非孤例,背后是一场从 " 备选 " 走向 " 必选 " 的新型存储技术浪潮。尤其是在全球半导体产业的演进与地缘政治激荡背景下,为 MRAM 在内的新型存储铺就了一条通往 AI 算力核心舞台的 " 黄金赛道 "。

2024 年 12 月,美国商务部工业与安全局(BIS)发布新出口管制规则,明确限制向中国出口内存带宽密度超过 2GB/s/mm ² 的尖端存储器。

这一封锁点,直指 AI 推理芯片的命门——带宽。

目前,英伟达、AMD 等巨头极度依赖 HBM,而 HBM 产能几乎被 SK 海力士、三星、美光等海外存储原厂垄断,且受限于复杂的 2.5D/3D 先进封装。同时,Groq 所代表的 SRAM 路线价格极高(Groq 230MB 片上 SRAM 内存的单卡售价 2 万美金),在先进制程微缩上也已近极限。

在此背景下,MRAM 路线的战略价值陡增。它不仅在物理特性上具备跨代超越 SRAM 的潜力,更重要的是,它能基于国产 28nm/22nm 等成熟制程实现超高带宽,彻底规避对尖端工艺和海外 HBM 供应链的依赖。这不仅是技术路线的 " 备选 ",更是中国半导体产业在算力领域破除卡脖子困境、实现差异化突围的 " 必选 "。

有业内专家表示,这一战略意义迫切需要国家有关部门给予更高重视与政策倾斜。MRAM 不仅是单一存储技术的革新,更能带动磁性材料、磁电子器件、存算一体架构等全产业链突破,有望彻底改变国内在 HBM 领域的落后局面和 SRAM 对先进制程的依赖,为 AI 算力产业打造自主可控的 " 第二曲线 "。

全球共振,商业化拐点已至?

当前,产业界正在用实际行动表明,MRAM 不再只是实验室里的美好构想,而是凭借独特优势正成为全球半导体产业布局的重点。

其中,晶圆代工龙头与芯片大厂均在积极布局:台积电、三星、英特尔、SK 海力士、IMEC 等凭借其先进的技术研发和大规模生产制造能力,已明确将嵌入式 MRAM 推进到 22nm、16nm 甚至更先进节点,持续提升 MRAM 的性能和集成度。

恩智浦与台积电合作推出 16nm FinFET 车规级 eMRAM,应用于其 S32 系列高端 MCU,实现写入速度比传统闪存快 10-15 倍、耐久性超百万次;瑞萨电子也推出了基于 22nm 工艺的 STT-MRAM 技术,瞄准汽车 MCU 市场;GlobalFoundries、Everspin 在 12nm 和 22nm 工艺上紧密合作,将 MRAM 纳入工业级和车规级量产方案;Avalanche 与联电携手合作推出 22nm STT-MRAM,在工业级和航天级市场拥有深厚积淀。

据 LexisNexis 数据统计,2004-2013 年间,MRAM 市场的专利申请量保持稳定,每年约有 300 至 400 项专利申请。需要注意的是,图表末尾的下降并不代表兴趣的下降,而是专利申请和公开之间的时间存在滞后。

这些头部厂商的集体行动,清晰印证着 MRAM 正从 " 备选技术 " 升级为 " 主流方案 ",在汽车电子、边缘 AI、高端计算等领域的商业化落地进入爆发前夜。

回看国内市场,本土半导体厂商同样敏锐捕捉到了新型存储技术的发展机遇,积极布局相关领域。

RRAM 领域涌现出昕原半导体、铭芯启睿、燕芯微等玩家;MRAM 赛道,寒序科技、致真存储、驰拓科技、凌存科技、亘存科技等纷纷崭露头角,为国内 MRAM 的发展奠定了产业基础。相对于 RRAM 基于电子电荷迁移,是一种统计物理范畴下的阻变器件;MRAM 的存取机理是基于自旋的确定性两态翻转,更加可控、精准,大规模制造下器件一致性、器件寿命极限都更有优势与潜力。两者均被台积电等半导体巨头作为下一代面向 AI 的存储技术重点押注。

具体来看,本土 MRAM 厂商各有侧重,多数主要集中于存储、加密、嵌入式控制等传统领域,例如:致真存储专注于磁性隧道结(MTJ)的核心器件研发与制造工艺,掌握从材料研发到器件制造的全链路技术,拥有国内唯一的 8 英寸磁存储芯片专用后道微纳加工工艺中试线。近期与北京航空航天大学联合攻关,研制出全球首颗 8Mb 容量自旋轨道力矩磁随机存储器芯片(SOT-MRAM),实现 SOT-MRAM 容量规模化突破。

驰拓科技专注于 MRAM 存储芯片的技术研发与生产制造,建有 12 英寸 MRAM 量产中试线,是国内首家实现 MRAM 量产的企业。近期成功突破垂直磁化体系技术瓶颈,存储器件 TMR 关键指标比肩国际头部代工厂量产的 STT-MRAM。

凌存科技专注于存储模块开发,致力于将 MRAM 技术从核心器件层面推向终端应用,成功开发了世界首款高速、高密度、低功耗的存储器 MeRAM 原型机及基于 MeRAM 的真随机数发生器芯片,产品广泛应用于车载电子、高性能运算、安全等领域。

寒序科技则独辟蹊径,与多数国内 MRAM 企业不同,其以 MRAM 为核心介质构建计算芯片,将 MRAM 的物理优势转化为算力与带宽优势,开辟了 " 磁性计算 " 这一全新赛道,致力于从计算层面引领国内 MRAM 技术从利基低毛利领域向高端市场跨越,成为国内 MRAM 技术从存储替代向计算革新跨越的关键力量,举起大旗与国内磁学领域全面拥抱合作,力争一同抢占全球 " 磁计算 " 的战略高地。

综合来看,从器件、设备、制造到系统应用,国内产业链的前期布局已具备支撑本土 MRAM 技术产业化与生态发展的基础。尤其是寒序科技的差异化定位,进一步填补了国内 MRAM 从存储到计算的关键空白,为后续诞生更多行业厂商提供了土壤和必然性。

生态共建:国产 MRAM 的 " 磁计算 " 革命

根据市场研究机构 Precedence Research 数据显示,2024 年全球 MRAM 市场规模估计为 42.2 亿美元,预计从 2025 年的 57.6 亿美元增长到 2034 年的约 847.7 亿美元,复合年增长率高达 34.99%。

虽然前景广阔,但 MRAM 的大规模爆发和商业化落地仍需产业合力,需要产业链上下游凝聚共识,共同构建生态。结合国际经验和国内产业的发展现状来看,更深度的产业合作与资源倾斜或许是推动 MRAM 技术发展的有力举措。

例如,国家有关部门可以给予 MRAM 技术更多重视,加大资金与政策支持,积极推动 MRAM 这一有希望在带宽领域实现 " 变道超车 " 的关键技术。

同时,借鉴台积电、三星、GlobalFoundries 等头部厂商对 MRAM 的关注与投入力度,国内代工厂或许也应加强对 MRAM 的工艺研发与资源投入,积极与国内厂商共同开展技术研发与工艺优化,争取尽早打通 " 设计 - 制造 - 封测 " 的本土化链路,形成协同创新的合力,降低 MRAM 芯片的流片成本与量产门槛。

还有一点不可忽视。英伟达收购 Groq 核心技术,计划在 Feynman 架构中整合 LPU 单元的案例,充分证明了 " 通用算力 + 专用引擎 " 的协同优势和行业趋势。

这一案例极具启示价值。笔者认为,在未来提升 AI 推理效率的行业共识下,国内 AI 芯片厂商应抓住这一变革机遇,加强与在新型介质与架构上具备底层创新能力的团队的合作力度,打造兼具通用算力与专用推理性能的新技术路径,快速补强技术短板,构建差异化竞争力。

产业界正释放清晰信号:以 MRAM 为代表的新型存储,已成为后摩尔时代的核心焦点。地缘政治的战略诉求、国际大厂的技术押注、国内产业链的长期积淀,再加上寒序科技的差异化突破,多重力量共振之下,MRAM 正逐渐迈入产业化的 " 黄金时代 ",有望成为中国 AI 芯片产业实现换道超车的关键抓手。

五年后,谁将主导下一代推理芯片?

当摩尔线程、沐曦、天数、壁仞等国产 AI 芯片公司接连叩响资本市场的大门,一个时代的答卷已然清晰。它们的密集上市,标志着中国在基于传统 GPU 架构的算力竞赛中,完成了从无到有的突围,进入了国产替代的收获期。

如果说上一代 AI 芯片的竞争是 " 算力竞赛 ",那么下一代的分水岭将是 " 谁能率先跨过带宽墙 "。

在这个关键转折点上,两条路径清晰呈现:一条是 Groq 选择的极致 SRAM 片上集成路径,用极高成本将带宽推向极限,并因此获得了行业霸主英伟达以数百亿美元估值的战略整合;另一条,则是以 MRAM 为代表的新型存储介质路线,为突破带宽瓶颈提供了一种更具根本性,也更符合长期成本与供应链安全需求的方案。

数年后,当 AI 推理进入 " 带宽决胜 " 的新时代,芯片市场或许不再仅有算力的巨兽,主导市场的佼佼者还将属于那些能够率先在 " 带宽战争 " 中沉淀出护城河的先行者。

正如 Groq 在硅谷用 SRAM 惊艳了世界,行业演进的逻辑暗示:" 中国版 Groq" 的出现也将不再是悬念。

在这个征程中,中国半导体产业各方也都在积极拥抱 AI,拓展产品品类,谋划新的增长曲线。而寒序科技正依托 MRAM 磁性计算的新范式,给出 " 中国版 " 的实现路径——并且,这条路,他们早在多年前,就已开始默默铺设。

* 免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

END

今天是《半导体行业观察》为您分享的第 4288 期内容,欢迎关注。

推荐阅读

一颗改变了世界的芯片

美国商务部长:华为的芯片没那么先进

"ASML 新光刻机,太贵了!"

悄然崛起的英伟达新对手

芯片暴跌,全怪特朗普

替代 EUV 光刻,新方案公布!

半导体设备巨头,工资暴涨 40%

外媒:美国将提议禁止中国制造的汽车软件和硬件

加星标⭐️第一时间看推送

求点赞

求分享

求推荐

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 ai gpu 芯片 核心技术
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论