作者 | 三北
编辑 | 漠影
AI 上市公司深圳云天励飞,最近在算力产品及服务业务板块完成诸多大额订单。
首先是 11 月 5 日,云天励飞宣布已完成近16 亿元的 AI 大单的交付工作,为北京德元方惠科技开发有限责任公司(简称 " 德元方惠 ")提供 AI 训练及推理算力服务。同时,第一批算力服务(对应合同中约 60% 的算力规模)的验收相关工作已完成,上线日期为 2024 年 10 月 1 日。
▲云天励飞最新公告部分截取
而就在不久前的 9 月,云天励飞刚中标了约1.3 亿元的 " 天府智算中心(一期)项目设备采购及监理服务采购项目 ",连下两城。
自去年以来,大模型催生了大量训练及推理算力需求,全球各路云计算大厂、服务器厂商、AI 企业以及一些跨界玩家纷纷开始进入智算行业。
作为一家做 AI 算法起家的企业,云天励飞拿下这些项目的背后,有什么样的技术和商业逻辑?这又能为 AI 企业同行带来什么样的启示?
通过对话云天励飞副 CFO 兼资本中心总经理陈腾宇,本文对此进行了深入探讨。
一、大模型狂飙 500 天,训练及推理算力需求激增
自 2023 年大模型爆火以来,催生了大量训练及推理算力需求。
大模型朝超大参数规模发展,OpenAI 提出的百万卡的智算集群思路已经被验证,推动智算中心如雨后春笋般涌现。根据工信部最新数据,截至 2024 年上半年,国内已经建设和正在建设的智算中心超过 250 个。2024 年上半年智算中心招投标相关事件 791 起,同比增长高达 407.1%。
提早预判到这样的趋势,云天励飞于 2023 年初涉足异构算力领域,这是国内 AI 企业最早布局智算的步伐之一。陈腾宇向智东西谈及当时的契机:短期来看,云天励飞在研发过程中有大量的技术沉淀可以支撑异构算力集群的高效率运行,而其盈利能力亦较为可观;另一方面,训练背后的推理需求是更大的蓝海,将给云天励飞自研推理芯片提供广阔的应用场景。
筹谋一年多,时间来到 2024 年 7 月,云天励飞与德元方惠一举签下 16 亿元的 AI 大单,在产业里一战成名。
按照合约,云天励飞将为后者提供智能算力调度及 AI 大模型开发服务平台配套服务,算力总规模约 4000PFLOPS,用于大模型训练及推理。
项目规模之大、业务之聚焦,很多业内人士好奇,云天励飞能搞定这个项目吗?
陈腾宇告诉智东西,目前这一项目已全面完成交付,并进入调试及验收阶段。同时,项目商业化也不成问题,根据云天励飞官方公告,这一项目未来三年预计每年为公司新增营收约5 亿元,三年累计产生利润5.39 亿元。
今年 9 月,云天励飞紧接着再下一城,中标了约 1.3 亿元的天府智算中心项目。
据悉,该项目目前也已经进入交付过程,预计进一步为云天励飞的业绩带来直接收益。
大项目纷纷交付,标志着云天励飞异构算力业务步入正轨,成为一条新的增长曲线。
可以看到,相比国内其他 AI 领域同行,云天励飞是在该领域跑得较快的 AI 企业。究其原因,首先还是因为公司较快地看到并抓住了这波 AI 机遇。
但提早布局 AI 算力的企业不在少数,为什么云天励飞能够突围?
二、为什么是云天励飞?左手算法,右手芯片
AI 算力混战局面持续已一年多。
自去年以来,尽管云巨头相继推出令人眼馋的大模型训推 " 全家桶 ",但实际可用的算力仍是稀缺资源,服务器厂商、AI 企业都在布局智算,甚至跨界玩家都入局了,竞争好不激烈。
之所以能够在群雄混战的 AI 算力市场站住脚,陈腾宇认为,云天励飞的核心竞争力还在于技术储备,主要体现在算法和芯片两大方面。
1、自研大模型经验沉淀工具,助客户提升算力利用效率
在算法层面,云天励飞于 2023 年推出了自研千亿级 " 云天天书 " 大模型,并在大模型的研发过程中积累了一系列算力调优、提升模型训练效率的技术平台和相应工具。
这些经验及工具都被云天励飞沉淀到产品和服务中,可帮助客户提升模型训练及算力利用效率,以更低成本训练大模型。
具体到集群管理方面,云天励飞智能训练平台及算力调度平台,能够按任务调度到卡,并进行任务管理、任务编排、训练告警、大模型断点续训。
此外,其数据管理(DataHub)支持数据可视化、挖掘、治理等多维管理,在保证数据安全性的基础上实现数据资产化;此外在集群管理中的通信优化、日志集群、监控告警等方面也积累了多个工具链。
具体到软件平台方面,云天励飞推出了智能算法标注平台,为算法训练提供了可靠的底层数据支持,可支持图像和文本自动化标注,据称相比人工标注效率提高 40% 左右。
除此之外,支持大模型负载均衡的部署平台,支持在多个主流硬件平台进行零代码、自动化的模型发布的模型发布平台,提供完整工具和资源的模型评测平台,全面覆盖内容审核过滤的智能内容审核平台等,都可以大大提高算法训练效率。
2、算法芯片化,自研大模型芯片提供高效推理服务
在芯片层面,云天励飞基于对 AI 算法技术特点及行业场景计算需求的理解,通过自定义指令集、处理器架构及工具链的协同设计,实现算法技术芯片化,构建了神经网络处理器平台,可以支持其算力产品及服务。
同时,云天励飞已具备自研的推理卡,依托创新的 D2D chiplet 架构,可承载大模型应用落地的大规模推理计算。据悉,从 2022 年开始其就开始针对大模型的 Transformer 架构做优化,实现流片,可见其对市场感知的前瞻性。
尽管在软件生态上还存在差距,但与海外高性能算力相比较,一些国产推理芯片已经在某些专项上占据优势。比如说云天励飞 X6000 一体机,采用 Mesh 互联技术,在多卡互联时可实现存储共享、最大化发挥带宽优势,从而提升大模型推理效率,针对 70B 模型的推理效率已达 60 Tokens/s,而针对 MoE 架构模型,如 mistral08*7B,推理效率达到 260 Tokens/s。
具体到大模型推理的实务中,很多客户更多关注的是带宽能不能充分利用起来这个问题。云天励飞在卡间互联、堆叠式设计等多方面的研发储备,使其能够满足客户的这一核心需求。
可以看到,之所以能够拿下近 20 亿元大单,还因为云天励飞建立了双重护城河:左手算法,右手芯片,使其在群雄混战的 AI 算力市场杀出一条血路。
三、技术立身,做最懂大模型的算力产品及服务
纵观算力产业,动辄一个项目的金额达数亿甚至数十亿元,周期长、工程量大、后续运营服务需求高。
针对这样的业务特征,陈腾宇告诉智东西,对于大客户来说,他们在选择算力服务提供商时,首先还是要考虑这家公司是否靠谱。主要考察的方面除了技术储备,还包括行业经验、供应链和交付能力、运营稳定性及资金实力等一系列综合能力。
而随着百模大战继续推进,集群运营面临的最大挑战还在于整体的运营能力,以及随着市场趋势变化,通过软硬件协同迭代,不断满足客户的新需求。
谈及云天励飞在这些 " 软实力 " 方面的储备,陈腾宇谈道,云天励飞已经搭建能力板块较为齐全的业务团队,包含技术研发、运营及销售、技术运维及交付等人员,保障业务顺利开展、进行。
同时,该业务板块已有规模化落地。根据云天励飞官方公告,其已落地西南、华南区域三个高性能算力集群,运营算力规模接近 5000P。在拿下两个巨额大单前,截至 2024 年 5 月末,公司已搭建异构计算集群算力超 800P。
此外,云天励飞还积累了多个行业的客户资源。通过前期业务拓展触达、上下游生态搭建等方式,云天励飞积累较多具备大模型训练及推理需求客户,包括 AI 初创公司、科研院所、互联网企业、自动驾驶企业、运营商等客户资源。
可以看到,正是这样的团队储备、落地案例及客户资源积累,配合 " 算法芯片化 " 战略及技术储备,让云天励飞的异构算力业务稳步发展起来。
对于 AI 行业来说,云天励飞开辟了一条 AI 企业在大模型时代的新出路——不止于算法攻关,而是将算法与算力经验结合布局算力产品和服务,这对 AI 同行有一定的启迪作用。
结语:顺势而为,构筑 AI 企业新价值
回顾过去一年多,AI 算力在 " 百模大战 " 狂潮之中成为竞争焦点;站在现在看未来,行业已经历过一波大浪淘沙,突出重围的玩家如云天励飞,正真枪实剑披挂上阵,构筑 AI 企业的新价值壁垒。
智算中心正从 " 建起来 " 走向 " 用起来 ",也对云天励飞们提出了新挑战。" 我们的能力构建和商业化已经做得比较好了,下一步我们会继续做深,绑定多个行业龙头,尽可能地挖掘客户需求,同时借用他们的行业经验去迭代自己的推理算力。" 陈腾宇说。
登录后才可以发布评论哦
打开小程序可以发布评论哦