雷科技 04-24
国产算力机会来了!DeepSeek V4全量开源,华为寒武纪赢麻了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

雷科技 AI 硬件组 |   编辑:TSkinght |   监制:罗超

雷科技(ID:leitech)算了下,距离 DeepSeek 上一次大版本更新已经过去 484 天,虽然期间一直有小版本更新,也引发了不少讨论,但这终究不是大家期待的 V4。

图源:DeepSeek

不过,好消息是我们终于不用再等了,DeepSeek V4 在 4 月 24 日早上 10:56 正式发布,首发就有 Flash 和 Pro 两个版本。这个消息很快就在海外刷屏,DeepSeek V4 发布的推文,短时间内就收获了数万点赞和数百万次浏览,评论区也是挤满了人。

图源:X

DeepSeek V4 的关注度实在太高,以至于 DeepSeek 不得不在官方推文下留言:

请仅以我们官方账号发布的 DeepSeek 新闻为准。其他渠道的声明并不代表我们的观点。

DeepSeek 发布这个声明的原因,是此前有人谣传 DeepSeek 迫于压力将不会开源 V4 版本(或仅开源小参数版本)。这个谣言甚至在一定程度上引发了开源 AI 社区的恐慌,不过现在这些谣言都被 DeepSeek V4 的全模型全量开源击碎了,而且还是大家熟悉的 Apache 2.0 许可证。

有外国网友直接在底下留言:开源人工智能之王回归了。

对的,DeepSeek,回来了。

开源王者,

以怎样的姿势归来?

此次发布的 DeepSeek V4 预览版本分为 Pro 和 Flash 两个模型,其中 Pro 面向复杂推理、高阶 Agent 和高强度任务,Flash 则面向高频调用、低成本部署和快速响应场景。

其中 V4-Pro 采用 1.6T 总参数、49B 激活参数的 MoE 架构,V4-Flash 则为 284B 总参数、13B 激活参数,两者都支持 100 万 token 的上下文长度。虽然参数差距巨大,但是根据官方的说法,他们借助算法优化了两个模型的参数调用,使得两个模型在日常任务中的表现几乎相同。

在小雷看来,这也揭示了 DeepSeek 对下一阶段大模型竞争方向的判断:模型不只是要更强,还要更便宜、更开放,这样才能更容易被企业和开发者真正用起来。如果你深度使用过 OpenClaw,云端 Token 的消耗速度肯定会让你印象深刻,随着 AI 的用途越发广泛、能力越发强大,Token 成本已经成为所有人都必须面对的问题。

但是,很多任务其实并不需要 Pro 级的 AI 模型去处理,比如办公辅助、内容摘要、数据整理等场景,更需要的是速度、稳定性和成本控制。所以将模型一分为二,然后让 Flash 版在轻量化任务中保持 Pro 的性能,就足以让使用者和企业节省大量的 Token 费用。

聊回 DeepSeek V4,小雷觉得最值得关注的就是百万级 token 上下文。对普通用户来说,这意味着更长的文档、更复杂的对话、更完整的项目资料,可以被一次性纳入模型处理,不用再拆分成多个片段分阶段完成。

而且 DeepSeek V4 的 Agent 及推理能力也得到了大幅度增强,配合更长的上下文,足以让其具备出色的连贯操作能力,这也是为未来的 "Claw" 生态大爆发提前做好准备。小雷认为,DeepSeek 赶在如今的时间段发布 V4 版本,肯定也是有这方面的考量。

更关键的是,DeepSeek V4 延续了 DeepSeek 一贯的高性价比路线。过去很多大模型竞争喜欢强调参数规模和榜单成绩,但 DeepSeek 却更强调工程效率和使用门槛,因为它真正想解决的不是让少数人看到技术上限,而是让更多人承担得起 AI 成本。

这种思路对国产 AI 非常关键,中国市场有庞大的中小企业、垂直行业和内容生产需求,但它们不可能长期承受高昂的海外模型调用成本。DeepSeek V4 如果能在性能和价格之间继续保持平衡,就会成为更广泛应用场景里的基础模型。

更何况单论开源模型的话,在目前的各项测试中 DeepSeek V4 都几乎拿到了第一,并且媲美海外闭源模型的最新版本(不过 V4 测试时 GPT 5.5 和 Opus 4.7 都还没发布)。开源意味着你只需要投入前期的硬件成本,就能够近乎零成本使用该模型,这对于不少大型企业来说也极具诱惑力。

国产算力,终于等来主场

既然聊到硬件成本,那么就不得不提 DeepSeek V4 对国产算力卡的支持了。在 V4 版本的开发过程中,华为、寒武纪等中国芯片企业都深度参与其中,并且与 DeepSeek 一起基于国产芯片重构 AI 大模型的算法逻辑并进行生态适配。

其实,在过去很长一段时间里,国产 AI 芯片面临的最大问题,并不是没有产品,而是缺少足够强、足够主流的真实业务负载,去测试国产算力芯片是否真正能够稳定运行主流大模型。

当然,你要拿 Qwen、kimi、豆包等 AI 模型去跑也确实可行,但是因为模型都是基于 CUDA 生态研发的,想在昇腾等芯片上跑通就需要借助兼容层来运行,相当于牺牲效率来换取低廉的硬件成本(某种程度上来说也是不得已而为之),也很难展示国产芯片的真正性能。

而 DeepSeek V4 的出现就解决了这个问题,它既有长上下文需求,又有复杂推理需求,还会被大量开发者和企业调用。如果国产芯片能在这样的模型上跑出稳定表现,肯定会比单纯公布硬件规格更有说服力,同时也能证明基于国产芯片深度适配后的国产模型,在性能和性价比上依然能够跻身全球前列。

图源:雷科技

对华为昇腾来说,DeepSeek V4 应该是今年最重磅的项目了。虽然昇腾过去已经在政企、运营商、云计算和 AI 训练推理场景里积累了不少案例,但要真正形成生态,还需要更多头部模型和开发框架的支持。

除了华为昇腾,还有另一个值得注意的企业——寒武纪,作为另一家在首日就宣布支持 DeepSeek V4 的芯片企业,它也受到了很多关注,只有少数在开发阶段就已经开始进行优化的芯片,能够在首日直接适配 DeepSeek,适配的国产 AI 芯片数量超过了英伟达芯片。虽然早前传闻 DeepSeek 会放弃对 CUDA 生态的支持,但现在看来显然是误传。

事实上,DeepSeek 的早期版本仍然是在英伟达的硬件上训练出来的,后续才逐渐转向华为昇腾,并且首批硬件访问权限仅提供给华为,等于是拉着华为一起搞 " 联合研发 "。

这种做法的效果是显著的,基于昇腾 950 超节点,DeepSeek V4-Pro 在 8K 输入场景下可实现约 20ms 的单 token 解码时延,单卡 Decode 吞吐约 4700 TPS,V4-Flash 则可实现约 10ms 的时延,单卡 Decode 吞吐约 1600 TPS,是英伟达此前可公开出口给中国的 H20 算力卡的 2.87 倍。

这些数字的意义,不是说让国产芯片的海报上又增添几串数字,而是让市场第一次可以用更接近真实应用的方式去评估国产 AI 算力。而且也告诉市场,大模型推理不是简单看芯片峰值算力,还要看显存访问、并行调度、低精度计算、通信效率和推理框架的协同。

虽然英伟达的算力卡性能确实称得上全球最强,但是其真正的核心是 CUDA 生态,所以国产芯片想要追赶英伟达,就不能只靠堆硬件参数(制程限制下一时半会儿也追不上),而是要让模型、框架和应用一起迁移过去,打造真正的软硬件协同。

可以说,DeepSeek V4 给 Qwen、豆包、kimi 等国产顶级大模型提前蹚了路,告诉大家:国产芯片是真的行。

CPU 也被 DeepSeek 重新点燃

在写这篇文章查询资料的时候,小雷还看到了一则新闻:英特尔财报发布,Q1 营收超预期,盘前股价飙升近 30%。在英特尔的财报中,最值得关注的就是数据中心与人工智能业务部门 ( DCAI ) 营收达 51 亿美元,同比增长 22%。

图源:百度股票

AI 的需求,正在从 GPU 逐渐转移到 CPU 上。有读者可能好奇,小雷为什么要在 DeepSeek 的文章里提这个?因为 DeepSeek 恰恰是 CPU 需求增长的主要推手之一,其 V4 版本就引入了年初曝光的 mHC 架构,该架构的核心逻辑是 " 查算分离 "。

举个例子,以前的 AI 大模型,查资料和推算都是在 GPU 上完成的,不仅挤占算力,也占用大量显存;而 mHC 架构则是将模型中静态数据(即非调用数据)存储在 CPU 的系统内存中,GPU 仅需处理推理所需的数据即可。

这种设计,直接将大参数模型对显存的压力转移到了 CPU 的系统内存上,而 CPU 即使是消费级的产品,也可以轻松挂载 128GB 乃至 256GB 的内存。这使得万亿参数规模的 DeepSeek V4 无需堆叠昂贵的显卡阵列就可以完成本地化部署。

不过,CPU 也因此需要更深度地介入到 AI 模型推理中,这使得高性能、高能效且高内存带宽支持的处理器更受欢迎。而英特尔此前发布的至强 6 最高可支持 12 通道内存,单内存规格最高为 256GB,意味着一颗 CPU 最高可挂载 3TB 的系统内存(在英特尔的产品线中,甚至有支持 4TB 的特化版本)。

某种程度上,mHC 架构也算是降低了市场对 HBM 内存(VRAM)的需求,却让压力回到了 DRAM 上。短期来看,可能确实让内存的价格稍微回落(毕竟 DRAM 的制造难度比 HBM 小很多),但是长期来看,估计会让所有内存都处于持续的紧缺状态,消费电子行业接下来可能还要继续承压。

图源:veer

而且,随着类 "OpenClaw" 应用的普及,PC 对 CPU 的要求也更高,因为 AI 需要一个高效的 CPU 在端侧进行指令处理和执行。这也使得英特尔的新处理器备受关注,酷睿 Ultra 300 系列的高能效 + 高端侧算力设计,恰好满足此类应用的需求。

在开源模型 + 开源 AI 应用的双重推动下,英特尔的营收估计还会持续上涨,这也让雷科技(ID:leitech)意识到,如今的 AI 浪潮中,如何最大程度地利用现有的计算硬件生态,将会是未来 AI 生态需要优先考虑的事情。

写在最后

在雷科技(ID:leitech)看来,DeepSeek V4 的意义其实已经不只是 " 又一个强大的国产大模型发布 " 这么简单,而是告诉我们,模型能力固然重要,但模型能不能被更多人用起来,能不能跑在更便宜、更容易获得的硬件上,才是下一阶段 AI 竞争的关键。

这不禁让我想到了当年 macOS 与 Windows 的竞争,同为最早的图形界面操作系统,前者虽然性能更强,但是因为仅支持苹果的硬件,导致其在后续的几十年里份额仅有 Windows 的十分之一甚至更低。而在 AI 领域也是如此,闭源 AI 模型虽然能力强大,但是普通开发者和小型企业却面临用不起、难以部署等问题。

而 DeepSeek V4 其实恰好解决了这些问题。首先开源就意味着免费,其次 100 万 token 上下文和更强的 Agent 能力,又让其真正成为生产力工具,而对国产芯片生态的支持,也让其能够适应不同的硬件环境,相当于给全球的 AI 开发者们开辟了一条新的康庄大道。

只能说,484 天的等待没有白费,DeepSeek 这次带回来的,不只是一个更强的 V4,而是一个更开放、更低成本、更接近普通人的 AI 世界。

  

2026 第十九届北京国际汽车展览会将于 4 月 24 日至 5 月 3 日在北京‌中国国际展览中心(顺义馆)和首都国际会展中心(新国展二期)举行,本届车展以 " 领时代 · 智未来 " 为主题,集中展现汽车工业的更多黑科技。

比亚迪、小米、鸿蒙智行(问界等)、小鹏、蔚来、岚图等头部品牌集结,多款重磅新车首秀;地平线、Momenta、卓驭等供应商集体秀肌肉,AI 大模型深度赋能,高阶智驾、动力电池、超快充技术等前沿科技集中亮相,看点拉满!

雷科技旗下「电车通」将派出报道团直击现场,以 " 关注电动车,更懂智能化 " 的专业视角,带来一线独家报道,敬请关注!

End

欢迎扫码添加小雷微信

记得备注想进群的手机品牌哦

跟小雷一起畅聊数码与 AI 科技

另外小雷建了很多粉丝群,欢迎扫码加入!

大家伙一块聊聊天,分享玩机技巧~

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai flash
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论