驱动之家 01-27
让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

快科技 1 月 17 日消息,在 AI 领域,DeepSeek 带来的影响力,一点也不亚于 " 六代机 "。那么,DeepSeek 究竟厉害在哪里?

据新浪科技报道,今日,中国工程院院士、清华大学计算机系教授郑纬民指出了 DeepSeek 其成功出圈的关键所在。

目前,业界对于 DeepSeek 的喜爱与赞美,主要集中在三个方面。

第一,在技术层面,DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 两款模型,分别实现了比肩 OpenAI 4o 和 o1 模型的能力。

第二,DeepSeek 研发的这两款模型成本更低,仅为 OpenAI 4o 和 o1 模型的十分之一左右。

第三,DeepSeek 把这一两大模型的技术都开源了,这让更多的 AI 团队,能够基于最先进同时成本最低的模型,开发更多的 AI 原生应用。

DeepSeek 是如何实现模型成本的降低的呢?郑纬民指出,"DeepSeek 自研的 MLA 架构和 DeepSeek MOE 架构,为其自身的模型训练成本下降,起到了关键作用。"

他指出,"MLA 主要通过改造注意力算子压缩了 KV Cache 大小,实现了在同样容量下可以存储更多的 KV Cache,该架构和 DeepSeek-V3 模型中 FFN 层的改造相配合,实现了一个非常大的稀疏 MoE 层,这成为 DeepSeek 训练成本低最关键的原因。"

据了解,KV Cache 是一种优化技术,常被用于存储人工智能模型运行时产生的 token 的键值对(即 key- value 数值),以提高计算效率。

具体而言,在模型运算过程中,KV cache 会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的 token 键值,通过模型运算计算出注意力分数,有效控制被存储 token 的输入输出,通过 " 以存换算 " 避免了多数大模型运算每次都是从第一个 token 开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek 还解决了 " 非常大同时非常稀疏的 MoE 模型 " 使用的性能难题,而这也成了 "DeepSeek 训练成本低最关键的原因 "。

"DeepSeek 比较厉害的是训练 MoE 的能力,成为公开 MoE 模型训练中第一个能训练成功这么大 MoE 的企业。" 郑纬民说

此外,DeepSeek 还充分利用专家网络被稀疏激活的设计,限制了每个 token 被发送往 GPU 集群节点(node)的数量,这使得 GPU 之间通信开销稳定在较低的水位。

早先,图灵奖得主、主导 Meta AI 研究的首席科学家杨立昆(Yann LeCun)认为,DeepSeek 成功的最大收获并非中国竞争对其他国家带来更大威胁,而是 AI 开源的价值使任何人都能受益。

" 对那些看到 DeepSeek 表现并认为‘中国在 AI 领域正超越美国’的人而言,你的解读错了 ",杨立昆在 Threads 写道," 正确解读应是‘开源模型正超越专有模型’ "。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

中国工程院 院士 gpu ai 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论