云头条 前天
DeepSeek 榨干 GPU:跑得更快、更省钱
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2026 年 6 月 27 日,DeepSeek 放出一篇新的技术论文,并开源 DeepSpec 项目。

这次主角不是一个全新大模型,而是一套让现有大模型跑得更快的推理系统 DSpark。

模型 " 脑子 " 没有换,但输出速度被重新优化了。

这件事的意义并不小。

大模型真正上线后,决定体验的往往不只是回答质量,还有每秒能吐出多少 token、用户等多久、同一批 GPU 能撑住多少并发请求。

能力是模型竞赛的上半场,推理效率正在变成下半场。

解决的核心问题很直白,大语言模型通常一个 token 一个 token 往外生成,每生成一步都要依赖前面的全部内容。回答越长,等待越明显,GPU 也会被这种串行流程拖住。

推测解码的思路类似 " 先打草稿,再让大模型批改 "。

一个更轻量的 draft model 先猜出一串候选 token,目标大模型再一次性验证这些 token。如果猜对了,就能一次通过多个 token;如果猜错了,就退回到目标模型继续生成。

理论上,输出内容不变,但用户等待时间会缩短。

问题在于,草稿模型并不总是靠谱。

一次猜得越长,后面的 token 越容易错。错得多,目标模型验证时就会拒绝,前面并行生成节省下来的时间,又会在无效校验里浪费掉。

DSpark 的第一个改动,是引入半自回归生成。它没有走完全并行的路线,而是在 block 内加入轻量串行模块,让候选 token 之间保留一定依赖关系。这样做的目的,是减少 " 前几个 token 能过、后面一串全废 " 的情况。

第二个改动更关键,置信度调度。

过去很多推测解码方案会将草稿模型生成的候选 token 直接全部送去验证。DSpark 则给每个 token 估一个通过概率,只将更可能被接受的前缀送去校验。系统负载高时,它会更保守;资源更宽松时,它可以验证更长的候选序列。

这一步看起来像算法细节,实际很接近线上工程的核心。因为在高并发场景里,GPU batch capacity 是稀缺资源。

将大量低概率通过的尾部 token 塞进 batch,本质上是在浪费吞吐。

DSpark 想做的,是让每一次目标模型校验都更 " 值 "。

DSpark 在数学推理、代码生成、日常对话等测试中超过 Eagle3 和 DFlash。

论文将 Qwen3 4B、8B、14B 和 Gemma4-12B 作为离线评测目标模型,并进一步在 DeepSeek-V4 Flash 和 Pro 的线上流量中验证效果。

论文对 9 个任务做宏平均后显示,DSpark 在 Qwen3-4B、8B、14B 上,相比 Eagle3 的 accepted length 提升 26.7% 至 30.9%,相比 DFlash 提升 16.3% 至 18.4%。

更重要的是线上数据。

DSpark 已部署到 DeepSeek-V4 Flash 和 Pro 的真实流量中。

相比上一代 MTP-1,在保持总体吞吐不变的前提下,Flash 版本用户生成速度提升 60% 至 85%,Pro 版本提升 57% 至 78%。

DSpark 解决的不是模型能不能做题、会不会写代码,而是同一个模型在真实服务里能不能更快、更便宜地交付答案。

对于 API 平台和高并发应用来说,这类优化会直接进入成本结构。

DeepSpec 的开源,则将这件事从一篇论文扩展成一套工具链。

DeepSpec 覆盖数据准备、训练、评估三步,内置 DSpark、DFlash、Eagle3 三类 draft model,并支持 GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca、Arena-Hard-v2 等评估任务。

不过,DeepSpec 不是轻量级开发者玩具。

DeepSeek   特别提示,在默认 Qwen/Qwen3-4B 配置下,仅 target cache 就可能达到约 38TB,默认训练脚本也假设单节点 8 GPU 环境。这说明它更像是面向模型团队、推理服务商和研究机构的工程基础设施。

DSpark 盯上的是大模型上线后的真实账本。同样的 GPU,能不能跑得更快、服务更多人、少浪费计算。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

gpu 竞赛 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论