10 月 15 日 -17 日,一年一度的开放计算全球峰会(OCP Global Summit)在美国加州圣何塞(San Jose)召开,本次峰会以 " 从创新到影响力(From Ideas to Impact")" 为主题盛大开幕,吸引全球 7000 多位基础设施软硬件技术和应用领域的专业人士参会。作为全球最具影响力的的基础设施和开放计算领域标志性盛会,特别是在今年 OCP 基金会重磅宣布其人工智能开放系统战略计划后,2024 OCP 全球峰会上专门设置人工智能特别关注议程),重点推动 AI 基础设施领域的技术生态建设。
阿里云服务器研发资深总监文芳志受邀和 UALink 联盟主席 Kurtis Bowman 联合发表了题为《UALink: Pioneering the AI Accelerator Revolution》的演讲,重点阐述了 AI 服务器 Scale UP 互连技术领域的发展趋势,UALink 标准的路线图,UALink 联盟和 ALink System 产业生态未来的合作潜力,以及阿里云磐久 AI Infra 2.0 服务器的落地实践思路。
行业领先的 AI 芯片、服务器和 CSP 厂商联合发起的 UALink 协议,将是一项彻底改变 AI 服务器 Scale UP 互连技术生态系统的行业新标准。相比较超级以太网联盟 ( UEC ) 的协议标准专注于 Scale out 扩展能力,UALink 协议凭借高性能内存语义访问的原生支持、显存共享,支持 Switch 组网模式,以及超高带宽、超低时延能力等性能优势,正在迅速构建起一个 AI 服务器 Scale UP 互连技术的超级开放生态。按照计划,UALink 联盟将于 10 月底正式成立并开始吸纳成员加入,并在年底对外发布第一版 UALink spec。
UALink 标准作为目前最具潜力的 AI 服务器 Scale UP 互连开放标准,如何在业界特别是在中国市场落地实践是一个巨大挑战,ALink System(ALS)产业生态应运而生。ALS 提供具备性能竞争力和统一标准的互连系统,包括 ALS-D 数据面和 ALS-M 管控面两个主要组成部分,为 AI 训推场景提供丰富的能力和特性支持。
ALS-D 将支持 UALink 国际标准,形成极具性能竞争力的数据面方案。当前以推理和训练场景为主的 AI 应用,在 Scale Up 网络上具有并行切分算法、大显存共享、GPU 超多核内存语义编程等多种显著特点。ALS-D 数据面互连采用 UALink 协议,除了原生支持高性能内存语义访问、显存共享,支持 Switch 组网模式,性能上具备超高带宽、超低时延能力外,还增加定义了在网计算等特性。
ALS-M 可以为不同芯片方案提供标准化的接入方案,符合规范的设备均可灵活接入应用方系统。无论是对开放生态还是厂商专有互连协议,ALS 使用统一的软件接口。同时,ALS-M 为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。
正是遵循 ALink System 的规范,阿里云自主设计了面向下一代超大规模 AI 集群的磐久 AI Infra 2.0 服务器,贯穿了开放生态、高能效、高性能和高可用的设计理念。AI Infra 2.0 服务器开放性地定义了 AI 计算节点和 Scale Up/Scale Out 互连系统,可以在统一的硬件架构下支持业界主流 AI 方案,引领 AI 领域的 " 一云多芯 "。
互连系统 ALink System 全面兼容国际标准 UALink 生态,可以与行业伙伴开放共建超高性能、超大规模的 Scale UP 集群互连能力,一级互连 64-80 个节点,二级互连可达 2000 以上节点,提供了 PB 级共享显存和 TB 级互连带宽。
AI 计算节点内集成阿里自研 CIPU 3.0 芯片,既能支持高带宽大规模 AI 服务器实现 Scale Out 网络扩展,又能兼顾云网络弹性、安全的要求。
硬件工程方面,AI Infra 2.0 服务器单机柜可以支持最大 80 个 AI 计算节点,业界密度最高;在业界率先采用 400V PSU,单体供电效率可达 98%,整体供电效率提高 2%。在散热设计上,机柜级液冷方案可以根据实际负载动态调整 CDU 冷却能力来降低能耗,单柜冷却系统节能 30%。最后,在运维管理上,全新的 CableCartridge 后维护设计,支持全盲插,零理线易运维、零误操作,维护效率提升 50%。
可靠性方面,AI Infra 2.0 服务器支持弹性节点、智能路由、高可靠供电、分布式 CDU 等技术,可以实时监控、探测各种硬件故障并自愈,硬件的故障域也缩减到节点级。
在 ALink System 产业生态建设上,阿里云一贯秉持开放合作的策略,推动互连技术领域的发展和繁荣。自今年 9 月 ALink System 产业生态在开放数据中心大会上正式发布以来,目前已有 20 多家 AI 芯片、互连芯片、服务器整机硬件和 IP 设计厂商加入,成员单位已就相关协议标准制定和实行路径选择展开交流。
除了积极拥抱 UALink 和牵头成立 ALink System 产业生态,阿里云还是 OCP、CXL、UCIe 和 UEC 等多个互连技术行业组织的创始成员或技术委员会成员,并用实际行动支持相关开放互连技术标准的制定和落地。
登录后才可以发布评论哦
打开小程序可以发布评论哦