驱动之家 10小时前
中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 9 月 20 日消息,中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模 Llama3.1-405B 大模型训练。

Llama3.1-405B 作为 4000 亿参数规模的大模型,在息壤训推服务平台的支持下,经过多轮优化,MFU ( 算力利用率 ) 达到国内领先水平。

另外,700 亿参数大模型 Llama2-70B 在万卡规模下完成训练,MFU 也处于业界领先水平。

据悉,天翼云的这套平台具备万卡纳管和并行训练能力,基于 HPFS PB 级并行文件系统、CTCCL RDMA 高速卡间互联技术、Gang 策略与拓扑感知的智算容器调度,以及慧聚自研分布式训练框架 TeleFormers 和平台,实现万卡资源纳管、万卡规模并行训练。

其中,天翼云自研了 AI 框架 Teleformers,对算子、通信、数据处理进行优化,还有并行策略的自适应调整,显著提升了大模型训练的训练效率。

在目前业内最大参数规模开源单体稠密模型 Llama3.1-405B 大模型训练测试中,性能表现达到国际同等水平。

算子优化方面,针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。

比如 matmul 算子,利用昇腾芯片的计算亲和性,将算子输入 padding 到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。

数据处理和流水线方面,通过设置合理的数据分片策略和 HPFS 条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进行了二次分片并提供就近缓存能力,减少 GPU 空闲时间。

自适应并行策略方面,基于对 3D 并行中各类计算单元的分析,天翼云设计了多种自适应的 3D 并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。

天翼云国产化万卡智算中心还有多项技术突破——

天翼云息壤训练服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint 秒级多级高速存储系统、容错优雅调度和模型编译缓存等系统,将万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。

自动断点续训系统:

建设丰富的故障库,基于此构建了多维故障感知系统,能够快速主动感知相关故障事件和潜在的故障风险;

通过精准的故障隔离和调度手段,快速隔离处理故障节点并重新调度新节点接手任务继续训练,实现无人干预式断点续训,有效减少 GPU 闲置时间。

高速多级 CheckPoint 系统:

天翼云设计基于多级存储的高速 CheckPoint 系统,通过两阶段异步存储,实现高速写入内存,并最终异步写入远端系统;

针对断点恢复场景,提供进程级故障原地快恢和远端快速恢复能力,最终实现对 CheckPoint 的秒级读写能力,大幅降低断点恢复时间、提升训练效率。

全链路检测工具链:

天翼云开发了全链路故障监控工具链,能够基于主动感知实现全链路的故障监控和定位。

该工具链可以主动发现设备故障,并降低训练中断的频次,确保训练过程的连续性和稳定性。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

中国电信 芯片 gpu 云服务 华为
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论