经济观察网 记者 钱玉娟 AI 世界从来不只是巨头的独角戏。来自中国、成立仅一年半的人工智能创业公司深度求索(下称 "DeepSeek"),使用 2048 颗英伟达 H800 GPU,用时短短两个月,训练出了 6710 亿参数的开源大模型 DeepSeek-V3,直接赶超美国 AI 巨头 OpenAI 投入超百倍的顶级模型 GPT-4o。
" 美国人在休息,中国人在奋斗。" 硅谷 AI 数据标注独角兽企业 Scale.ai 的创始人 Alexandr Wang 感慨,DeepSeek 正以更低的成本、更快的速度和更强大的战斗力实现了追赶。
不仅给沉浸于圣诞假期的硅谷 AI 研究者和开发者带去了震撼,这家坐落在杭州的初创公司,还激发国内不少人前来 " 朝圣 "。
一位接近 DeepSeek 管理层的人士透露,过去两周,受 DeepSeek-V3 全球热度影响,有来自北京市、浙江省的政府官员约见 DeepSeek 创始人梁文锋,这些都是 " 推不掉的事情 ";面对更多的见面邀约,梁文锋选择在 " 社恐 " 外衣下主动把自己 " 藏 " 起来。目前,各类企业提出与 DeepSeek 建联、交流的诉求后,DeepSeek 及其母公司幻方量化的管理层基本是 " 隐身 " 处理。
采访期间,经济观察网也尝试与 DeepSeek 官方以及其母公司董事总经理联系,未获回复。
上述接近 DeepSeek 管理层的人士说,梁文锋把精力投入到模型产品的迭代中,除了潜心研发外,减少曝光还有另一重考量:要保护好 DeepSeek 这支年轻的技术队伍。
要知道,就在 DeepSeek-V3 发布第二天,小米科技创始人雷军亲自以千万年薪挖走 DeepSeek 罗福莉的消息便冲上热搜。
一支东方力量
从浙江大学电子工程系人工智能方向毕业后,梁文锋曾进入 " 不对口 " 的金融科技领域,从事私募基金、量化投资多年。
" 他一直坚信 AI 会改变世界。" 前述接近 DeepSeek 管理层的人士称,梁文锋对 AGI 有理想情怀,在国内处于大模型创新风口时分身入局,于 2023 年 7 月创立了 DeepSeek。
模型发布即开源。在长达 53 页的论文中坦诚披露了模型训练的技术细节。
仅花费 557.6 万美元,就完成了这一多模态、推理模型的总训练,模型的训练成本是其他全球知名大模型的 1/20,甚至 1/100。
H800 是英伟达针对中国市场特供的低配版 GPU,芯片性能受限下,DeepSeek 仍实现了超大规模参数的模型训练。OpenAI 创始成员 Karpathy 在社交媒体上点评,DeepSeek-V3 让在有限算力预算上进行模型预训练这件事变得容易。
的开源模型震动硅谷,国内相关领域人士试图挖掘这个 AI 创业团队的神秘班底。
2023 年本科毕业的小陆曾经历 6 轮面试获得了 DeepSeek 人力资源部的入职资格,尽管后来她选择出国深造,放弃了入职,但回忆起这家初创公司的面试风格,她的感受是,从 Passion(热情)出发去做一个不可能完成的任务。
小陆候选的岗位涉及招聘 AI 人才,她了解到,这个团队最大的特点是年轻化,且在当时就有大批清华大学、北京大学的应届生放弃去斯坦福、MIT 跟着大牛导师读博的机会选择加入 DeepSeek。
" 只招 1% 的年轻天才,做 99% 的公司都做不到的事情。" 小陆觉得,DeepSeek 在组织形态上是最像 OpenAI 的一家中国 AI 公司。
但与 DeepSeek-V3 低成本训练一样令人惊叹的是,DeepSeek 的员工规模不及 OpenAI 的 1/5,百人出头的公司中,算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约 70 人,主要在北京分部,其余 30 多人在杭州总部,多为前端、产品以及商务人员。
1% 的年轻天才
从 DeepSeek 发布的论文贡献者名单看,他们多是清华、北大、北邮、北航等高校计算机相关专业应届生、博士在读生,少部分工作经验短至两三年的技术人员,也是拥有国内教育背景的高材生。
梁文锋是 DeepSeek 这支年轻队伍中少有的 80 后,他会亲自带队研发产品,有时还会亲自写代码,与同事一起攻克 AI 大模型的技术难题。
在招人准则上,梁文锋与 OpenAI 的创始人奥特曼有相似之处,不在学历、履历上设定门槛,更看重一个人的工程能力。
人力资源部门的一位工作人员在多个平台发布招聘需求,她会在简单介绍 JD(Job Descripion,职位描述)后补充这样一句:" 不希望用 JD 限制人选在公司发展的空间。" 她介绍,招募人才着重考察的是人选的素质和对大模型的热爱。
虽然脱胎于量化私募基金巨头,但 DeepSeek 的自我认知是一家小公司,这让它不需要像科技大厂那样,对一个创新想法反反复复推演、论证," 搞来搞去,一大帮人重复做一件事。" 上述接近 DeepSeek 管理层的人士介绍,扁平化管理模式下的 DeepSeek,所有的研究人员直接向梁文锋汇报,创始人给予研究和开发团队充分尊重,谁有好想法,尽管推进去做。
这一点也在前述人力资源工作人员处得到印证,她说,公司在资源配给方面,可以做到万卡 GPU 训练集群,无需申请,不限使用。
管理风格的背后,是梁文锋对寻找更多技术知音的迫切。
模型的关键开发者之一罗福莉,早在北京大学研究生阶段就在 AI 领域的顶级国际会议 ACL(国际计算语言学协会年会)上发表了 8 篇论文,其中 2 篇是一作。截至目前,罗福莉的研究论文在谷歌学术上被引用次数已超 2000 次。
一位在国产模型 " 五虎 " 之一的 AI 企业进行产业生态研究的人士告诉记者,任何一家模型厂商都处在一个科研驱动的阶段,招聘人才必然看学术与工程开发的能力,看顶刊论文,毕竟招聘进来是要搞科研的。
在该人士看来,DeepSeek 研究团队的高光标签并非本土化,而是 " 研究 "。年轻的顶尖人才再配备万卡资源,这样的公式让 DeepSeek 这家创业公司走到今天甚至一鸣惊人并不令人意外,反而衬托出行业的灰暗面。
接受记者采访时,上述模型厂商的生态研究人士以某明星 AI 公司为例说,即便被资本捧上了天,但身处镁光灯下,很少人去看它成立至今才发布了几款模型," 目前已经有多家厂商很长时间没有发布新模型了,他们中的大多数并非真正重视研究创新这件事 "。
创业公司习惯借助技术大牛加入团队来撑门面,而像 DeepSeek 这样的公司,仅有一部分是像罗福莉这样从母公司转岗加入 DeepSeek,在扩充人才梯队时,梁文锋特别要求人力资源方面不去百度、阿里、字节等大厂挖角技术大牛。
上述接近 DeepSeek 管理层的人士理解这种做法,任何一家大厂的技术大牛,多会在离开时带走一些嫡系,这样一群带有大厂思维模式的人进入创业团队,难免会形成 " 山头 ",严重时还会损害公司的创业氛围,影响产品的开发节奏。
既不靠母公司砸钱吸纳大牛,又想吸引更多热情投入研究的年轻技术人,不是一件容易的事。
于是,梁文锋走到台前接受媒体采访,对外发声有两个阶段:一是 DeepSeek 成立初期,他需要告诉所有人,DeepSeek 的目标是聚焦 AGI 展开研究、探索;二是 DeepSeek-V2 发布时,它点燃了国内大模型价格战的导火索,时值 2024 年年中,梁文锋在接受 36 氪采访时称,DeepSeek 无意成为行业鲇鱼,低价背后是希望算力普惠,以及公司的愿景仍是 AGI。
上述接近 DeepSeek 管理层的人士告诉记者,在团队招募人才的关键期以及行业发展的转折点,梁文锋会主动出来,但他反复强调的内容都与商业化目的无关,包括梁文锋在内的管理层担忧的是,团队核心成员被竞争者持续挖角,技术创造力流失。
眼下没有商业化,也没有其他新产品发布,对手筹谋更多的就是挖人。" 上述生态研究人士了解到,其公司正在通过猎头挖人。
当 DeepSeek 爆火后,那些出现在技术论文中的贡献者们,成为不少厂商觊觎的 " 生产力 "。
模型厂商的异类
AI 大模型在国内爆火后,行业里流行这样一个说法,中国持有高性能 GPU 最多的机构不是 AI 公司,而是幻方量化。卡多、不差钱的幻方量化,在背后支撑 DeepSeek 展开模型研究,路线则是坚持开源,并不急于部署商业化应用。
与不少模型厂商既要开发基础模型又要 AI 应用变现的逻辑不同,DeepSeek 一度被视为模型厂商中的异类。
记者与多位 DeepSeek 内部人士交流后,发现这家 AI 公司有很多差异化表现:不做产品运营,也不进行广告投流,更没有在社交媒体向 C 端用户推出任何讲解 Prompt(AI 模型提示词)模板等。
上述接近管理层的人士透露,眼下 DeepSeek 虽然会向开发者卖低价的 API,但像其他友商那样面向开发者搞各种项目,它完全没兴趣,几乎模型相关的核心研究人员都在专注于产品迭代,以及另外一个 " 产品 " ——技术研究论文。
腾讯前高级研究员、北京大学人工智能方向博士后卢菁,近两年一直专注于对国内外知名大模型展开深度研究,将其中的技术创新点通过社交媒体平台传播给国内外的技术爱好者们。
卢菁在 1 月 11 日晚通过视频直播,就 DeepSeek-V3 核心技术进行第二期讲解。他提出,DeepSeek 并非突然爆火,它其实承接了上一代模型版本中的很多创新,相关模型架构、算法创新经过迭代验证,震动行业也有其必然性。在他看来,DeepSeek 更关键的动作是在模型工程细节上的优化," 它把已有的东西,做到极致,成本降到了最低 "。
很多人是在 DeepSeek-V3 面世后才对这一模型背后的团队、技术核心产生巨大的好奇,实际上,DeepSeek 的团队早就引起卢菁这类业内专家的默默关注,直到 DeepSeek-V2 以多头潜在注意力机制(MLA)架构创新,在硅谷引发震动后,这一公司才真正在 AI 领域出圈。
在卢菁看来,DeepSeek 团队在做的是一个精细活,需要的是一线真正干活的技术工程师,去将模型推理架构、算法等细节优化,从而实现低成本训练。
低成本训练并不代表模型效果差。DeepSeek 官方指出,DeepSeek-V3 模型多项评测成绩超越了当前全球顶级的开源模型 Llama-3,就连国外独立测评机构 Artificial Analysis 测试后,也感叹 DeepSeek-V3 已经超越了迄今为止所有开源模型。
卢菁还在模型论文中看到,DeepSeek-V3 在知识类任务上表现优异,已经接近当前表现最好的闭源模型,即 OpenAI 发布的 GPT-4o 以及 Anthropic 公司发布的 Claude-3.5-Sonnet。
陈天楚在浙江大学计算机系统结构实验室从事大模型相关研究工作,DeepSeek-V3 发布后,虽然这一模型的参数超出了开源社区一般模型爱好者的选择,但他在相关测试中着重对模型的代码能力加以考察,发现 DeepSeek-V3 已经达到了国外先进模型的水平。
从 DeepSeek 官网可以看到,DeepSeek-V3 模型部署的价格,与全球其他同级别的模型价格相比更为低廉。这一模型因具有性价比,而被外界赋予了 DeepSeek"AI 界拼多多 " 的称号。
模型产品看似以价格取胜,但上述接近管理层的人士强调,DeepSeek 至今没有面向 C 端的应用开发,也未向 B 端企业级发展商业化,目前还是在模型探索与完善的阶段。
在年轻创造力的驱动下,更强调专注于研究。上述接近管理层的人士介绍,梁文锋已经以个人名义投资了一些未来能在的模型基础上长起来的下游 AI 应用企业项目。这可以理解为,梁文锋在为未来能形成一个小生态提早铺垫,慢慢布局。
登录后才可以发布评论哦
打开小程序可以发布评论哦