xAI超级计算机集群已投用，配备了十万块H100

日前马斯克在 X 平台宣布，xAI 位于田纳西州孟菲斯的超级计算机集群（Memphis Supercluster）在当地时间 4:20 正式投入使用，并向 xAI 团队、X 团队、英伟达，以及相关支持公司表示了感谢。

据马斯克透露，此次启用的超级计算机集群配备了 10 万个 NVIDIA H100 GPU，并采用液冷散热。值得一提的是，该计算机集群在 GPU 规模上已超过了最新的全球超级计算机 Top 500 榜单上的任何一台，例如 Frontier（37888 个 AMD GPU）、Aurora（60000 个 Intel GPU），以及微软的 Eagle（14400 个 NVIDIA H100 GPU）。

据悉，该计算机集群使用的是单一 RDMA（Remote Direct Memory Access，远程直接内存访问）网络互联架构（以下将简称为 RDMA 架构）。相较于传统的 TPC/IP 通信模式，RDMA 架构能够让计算机可以在节点间提供更高效、更低延迟的数据传输，并且不会对 CPU 造成影响，所节省的资源则可进行其它运算。

孟菲斯电力、天然气和水务公司首席执行官表示，xAI 在当地的超级计算机集群每小时可能会使用高达 150 兆瓦电力、相当于 10 万户家庭所需电量，并且预计每天至少需要 100 万加仑的水用于散热。对此，xAI 方面已承诺将改善孟菲斯的公共基础设施，包括兴建一个新的变电站和污水处理设施。

值得一提的是，据马斯克透露，xAI 的目标是 " 在今年 12 月前训练出世界上最强大的人工智能模型（Grok3）"，并且孟菲斯的这一超级计算机集群将为实现这个目标提供显著的优势。

公开资料显示，xAI 是由马斯克在 2023 年 7 月成立的人工智能公司。同年 11 月，xAI 方面发布了自研大模型 Grok-1，并推出 AI 聊天机器人 Grok。随后，其还未 Grok 系列大模型推出 Grok-1.5 和 Grok-1.5 Vision 两个版本。

此前在本月早些时候，Cohere 首席执行官 Aidan Gomez 在 X 平台（原推特）上表示，许多人工智能模型都是根据彼此的数据进行训练的，因此会出现 " 人体蜈蚣效应 "、即模型会输出相同的结果。对此马斯克回应称，xAI 将于今年 8 月推出大语言模型 Grok-2，在数据训练方面有较大的进步。

【本文图片来自网络】

宙世代

逗玩.AI

相关标签