智东西 09-06
千卡集群每年降本2000万!腾讯云推出AI Infra品牌,副总裁解读智算产业趋势
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 香草

编辑 | 李水青

智东西 9 月 5 日报道,今日,腾讯云在腾讯全球数字生态大会上发布 AI Infra(AI 基础设施)品牌 " 腾讯云智算 ",将旗下高性能计算 HCC、星脉网络、AIGC 云存储等单项产品能力整合,提供集算存网一体的高性能智算底座。

腾讯云智算目前已服务了 90% 的国内大模型头部用户,包括百川智能、智谱 AI 等。据腾讯公司副总裁、云与智慧产业事业群 COO 兼腾讯云总裁邱跃鹏介绍,腾讯云的集群千卡单日故障数是行业水平的 1/3,数据读写效率是业界 10 倍,千卡集群通信时间是业界一半。

在大会之前,智东西与少数媒体对话了腾讯云副总裁、云计算资深技术专家沙开波,深入交流了智算产业的市场趋势、技术难点等。

谈及 AI 对云计算的影响,沙开波认为长期来看,生成式 AI 的发展是具有确定性的,大模型对智算产业来说是一块很大的增量,未来一定会有一个比较大的爆发节点。

之所以选择在这时成立腾讯云智算的品牌,也与客户需求有很大的关系。另一方面,大模型计算、推理等场景对云基础设施提出高要求,腾讯云作为解决方案提供方需要不断打磨产品能力,从而更好地支持这一类客户的业务需求。

一、集算存网一体,从设备上架到启动训练仅1

整体来看,腾讯云智算是一个集算、存、网于一体的高性能智算底座,整合了腾讯云高性能计算 HCC、高性能网络 IHN 星脉、高性能云存储、加速框架、容器、向量数据库、智算套件等产品,提供性能领先、多芯兼容、灵活部署的智算产品能力。

互联网企业、大模型厂商、本地智算 IDC、金融企业等是腾讯云智算现阶段的主要客户,具体到场景中除了公有云,还有私有云、专有云的一些应用,其中大模型厂商是最主要的客户之一。

腾讯云智算在训练启动时效上大幅提升,从设备到位到开始训练,相较业界平均的 30 天时间缩小到仅 1 天。

在集群稳定性方面,腾讯云智算千卡单日故障卡数 0.08,只有业界的 1/6;数据读写效率上,Checkpoint 聚合写入的峰值性达到业界 10 倍以上,1 分钟就能完成万卡 Checkpoint 读写;网络交换效率方面,通过服务器、网络端、交换机和通讯库的整体自研优化,千卡集群的通信时间占比为 6%,是业界平均时间占比 12% 的一半。

▲腾讯云智算训练效率

随着市面上的大模型参数不断增长,从百亿、千亿,逐渐扩展到万亿,模型训练对底层算力集群的要求也不断提升。腾讯云是如何破解集群升级难点的?

沙开波谈道,大规模计算集群的打造也是腾讯云智算产品矩阵最想解决的问题。其中,HCC 高性能计算产品是专门用于高性能、稳定、大规模计算集群的构建,而如何将 GPU 等算力高效利用起来,则用到星脉网络来提供卡之间的高效互联,模型训练过程中的 Checkpoints 高效读写对应的是高性能存储产品。

基于这些产品整体构建的计算存储网络全栈解决方案,才能帮助客户实现大规模集群的高效利用。

二、4天训完万亿参数模型,网络故障5分钟解决

具体来看腾讯云智算的产品矩阵,包括高性能计算、网络、存储产品,加速框架、向量数据库以及智算套件等。

▲腾讯云智算解决方案

腾讯云 HCC 高性能计算集群发布于去年 4 月,是行业最早发布的面向大模型训练、推理的算力集群。

HCC 底层采用腾讯云自研星星海服务器,可以提供 3.2T 的超高互联带宽,算力性能比上一代提升 3 倍。万亿参数的混元 NLP 大模型训练,最快 4 天就能训练完成。在稳定性方面,HCC 千卡单日故障卡数为 0.08,无中断训练时长达到 300 小时,是业界平均市场 50 小时的 6 倍。

腾讯云星脉网络是其自研的高性能计算网络 IHN,支持超 10 万卡大规模组网、多型号异构 GPU 接入,网络通信效率比上一代提升 60%,大模型训练效率提升 20%。

星脉网络具备高效的故障处理能力,在万卡集群下,网络故障可实现 1 分钟发现,3 分钟定位,5 分钟解决。

据沙开波介绍,这是因为星脉网络通过一些流量和拓扑的自动感知,进行流量替换中心的调度,从而提升整个网络的吞吐,并在发现故障的时候迅速定位到是哪个链路出的问题,对链路进行调度、异常处理,让整个训练可以不中断或者少中断。

腾讯云的 AIGC 云存储解决方案包括 CFS Turbo、对象存储 COS、数据加速器 GooseFS 以及数据处理 CI 等,针对 AI 大模型数据采集清洗、训练、推理、数据智理全流程,提供全面高效的云存储支持,可将大模型的数据清洗和训练效率提升一倍。

三、千卡集群每年降本2000万,助力传统企业AI转型

目前,腾讯云智算可以灵活地支持公有云、私有云以及分布式云的输出,成为了国内 90% 头部大模型厂商的选择,也帮助一大批 IDC 厂商实现了 AIDC 转型。

沙开波解读了腾讯云智算具体的落地案例,公有云的一些大模型的客户在使用其完整的智算解决方案后,一个千卡集群每年的成本相比过去传统的方式可以降低 2000 万。

例如某社区电商的企业,在评论分析、图像分类等 OCR、CV 业务上应用腾讯云智算解决方案,在去年下半年从海外的芯片更换成了腾讯云公有云上的国产芯片。在主要业务指标不变的前提下,只用了 21 天就完成了替换,其中两周左右用来适配模型,一周左右改造推理框架,对不同芯片的适配非常高效灵活。

▲腾讯云智算客户价值

在私有云的落地上,腾讯云智算主要的客户是传统的 IDC 公司,它们原本具有机房、硬件、网络优势,但是缺少云、软件解决方案。

具体案例是,某传统 IDC 企业通过与腾讯云智算合作,组建新一代具备 AI Infra 基础能力的智算平台,并通过租户、计费管理等能力,为终端用户提供一站式自主用云服务,实现到 AIDC 的转型。该客户还获得了今年的可信云大会用户最佳实践奖。

四、谈智算产业五大趋势,保持兼容、开放、公私一体

纵观整个智算产业,正处于快速发展的阶段,从产业规模、应用场景到技术创新都在不断拓展。沙开波与我们分享了腾讯云对未来趋势的看法,主要有五个层面。

首先是大模型的规模仍在持续增加,这对 AI Infra 要求也越来越高,需要更大的算力集群,如何在更大集群下确保稳定性、应用性可以满足要求是主要命题。

其次是多芯的能力。多芯一方面来源于供给端的挑战,需要 AI Infra 产品去适配各种芯片的能力,比如金融等行业的一些央国企会有国产化诉求,需要云厂商去兼容、适配国产化的芯片。

第三是现在整体 AI 应用,处于一个快速发展的阶段,在应用落地层面仍处于前期,未来可能会越来越快。从这个角度看,未来的推理比重可能也会逐步增加。

第四是 AI 场景变得越来越广泛,很多行业还在探索的阶段。从腾讯云智算和很多客户的交流中,可以看出他们在这方面都有很强的诉求,未来肯定会有一些创新的业务应用落地。

最后是对数据安全的需求强烈。对很多国内企业来说,用于训练推理的业务数据,只能在自己的机房里面完成,这对产品能力的部署提出比较多诉求。

谈及腾讯云智算的整体战略目标,沙开波称腾讯云从 ChatGPT 出现后就一直在打磨产品,在原来的通用计算、云上去演进,让原有的云基础设施能更加满足大模型时代对训练、推理场景的诉求。

此次发布腾讯云智算品牌,主要还是出于把过去一系列的工作组合起来,变成一个整体解决方案对外提供,向行业传递更准确、更完整的信息。

相较其他友商,腾讯云智算品牌的主要战略是整体的兼容性、开放性,以及公私一体。

结语:生成式 AI 推动智算产业飞速发展

凭借集算存网一体的高性能智算底座,腾讯云智算整合了多项优势产品,展现了在智算领域的技术能力和潜力。

随着生成式 AI 的持续发展,智算产业也许会乘着这股大模型的风 " 起飞 "。腾讯云智算以其兼容性、开放性以及公私一体的战略,不仅灵活地支持公有云、私有云以及分布式云的输出,同时也成为了国内大量大模型厂商的选择,帮助一大批 IDC 厂商实现向 AIDC 的转型。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

腾讯云 ai 云计算 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论