雷科技 07-24
从零到自研芯片王炸,亚马逊云科技做对了什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当高启强给泰叔说「风浪越大,鱼越贵」的时候,大概率没想到,这句话竟也适用于芯片行业。

这几年是人工智能的大年,风口之上,不只有绿厂一骑绝尘,各家芯片大厂也纷纷调转船头,希望在 AI 的海里多捞几条大鱼。

相比之下,另外一个技术半球、曾经风浪也很大的领域——云计算,貌似消停了不少。消停到以至于很多人没注意一个相当重磅的消息:

7 月初,亚马逊云服务官宣,他们最新的 Graviton4 芯片,已经完成了大规模部署

这个消息之所以值得关注,是因为 Graviton 芯片本身就非常值得关注。遥想当年亚马逊云科技作为第一个吃螃蟹的人、以云计算公司的身份开始自研芯片,到现在 Graviton4 芯片大规模部署商用,这个过程中他们已经引领了三波重要的技术趋势:

趋势一:云厂商自研芯片,并由此构建独特的核心竞争力

趋势二:Arm 架构在云端、消费端等各个场景的广泛使用

趋势三:软硬结合开启了更多创新机会,AI 也是其中之一

今天这篇文章就帮你详细拆解下,Graviton4 的大规模商用部署,是否会在科技领域掀起另一波滔天巨浪。

分析技术趋势之前,我们必须先来回顾和梳理一下 Graviton 这颗芯片的成长历程。

2015 年,亚马逊花 3.5 亿美元收购了一个以色列的芯片公司 Annapurna Labs,这成为 Graviton 芯片诞生的开端。站在现在的上帝视角往回看,这次 3.5 亿美元的收购撬动了超过 4000 亿美元的全球云计算市场

事实上,两家公司在收购之前就已经有很密切的合作了。亚马逊云科技的当家技术叫做 Amazon EC2,也就是 Elastic Compute Cloud 的缩写。这个东西是一个云计算的基础性平台,包括人工智能在内的很多应用,其实都是运行在这个平台上的一个个实例(instance)。所以这两家公司当时合作的重点,就是不断迭代 Amazon EC2 的性能和灵活性。但越迭代他们就越发现,软件优化的油水被榨的差不多了,各种瓶颈已经从软件转移到了硬件。更聚焦的说,瓶颈就是芯片。

本质原因很简单,市面上卖的各种芯片大都是通用芯片,并不会根据某个客户的需求做定制优化,即便是亚马逊云科技这样的超级大客户也不行。

于是他们决定,要自研芯片。

在 2016 年的 re:Invent 大会上,亚马逊云科技的传奇工程师 James Hamilton 就从口袋里拿出了他们自研的第一颗数据中心芯片,用来支持 2x25G 以太网的数据包处理。当时给业界带来的震撼程度,丝毫不亚于 ChatGPT 的发布。因为人们突然意识到,原来云厂商能打破次元壁,去抢芯片公司的饭碗,而且可以做的很好。

更加震撼的是,Graviton 的芯片架构没有选择当时占据 99% 市场份额的 x86,而是选择了基于 Arm 的 Neoverse 内核打造。要知道当时行业的普遍认知是,Arm 只适用于低功耗和移动端场景,PC 都费劲,更不用说有着高性能高功耗的数据中心服务器场景,真的开眼了。

芯片工程师们也集体沸腾了,因为这相当于给他们开启了一片职业生涯的蓝海。原来我们也能去互联网和云计算公司,分享一波互联网的红利。

两年后,亚马逊云科技在 2018 年的 re:Invent 大会上正式发布了第一代 Graviton 处理器、2019 年推出了 Graviton2、2021 年推出了 Graviton3、2023 年推出了 Graviton4,保持了两年一更的节奏,而且每代都取得了极大的飞跃和提升。值得特别注意的是,Graviton 是基于 Arm 架构的服务器 CPU 芯片,目前驱动了超过 150 种计算实例、全球超过 5 万家企业和开发者在使用,这里面的意义是不言而喻的。

具体来看 Graviton4 芯片,和前一代相比,核心数提升 50%,达到 96 个;每个内核采用了当前最顶级的 Arm Neoverse V2 架构,这也是业界最早支持 Arm v9 架构的芯片之一。存储方面,Graviton4 在缓存容量、内存容量和带宽等多个方面全面升级。比如每个核心的 L2 缓存扩大一倍到 2MB,这样二级缓存总量达到 192MB;同时支持 12 通道 DDR5-5600,内存带宽提升 75%,峰值带宽可以达到 537.6GB/s。高速接口方面,Graviton4 支持高达 96 通道的 PCIe 5.0 高速接口,非常适合数据中心云计算和云存储场景。

更重要的是,Graviton4 的设计范式也在悄然改变。传统 CPU 的评价机制一般都是各种 benchmark(基准测试),比如 Microbench、SPEC 等。但随着业务的不断细化、应用场景不断增加,原来那些统一的 benchmark 可能很难代表某个应用场景的需求。很可能成了一个跑分大杀器,但实际使用的时候达不到要求。根据亚马逊云科技在上海 Summit 上展示的材料,也充分对比了 Micro benchmark 和真实工作负载在 CPU 上的表现有很大差异。

于是从 Graviton4 开始,亚马逊云科技的造芯思路就从跑分转移到面向实际应用做设计,让芯片更加贴近使用场景,规避不必要的「内卷式」优化。

当然,这也是亚马逊云科技这样的云厂商才能有的「特权」。一个 CPU 的参数茫茫多,牵一发则动全身,所以特别需要知道哪些参数是重要的、哪些可能没那么重要。相比传统芯片设计公司,云厂商有大量实际场景和案例,对不同应用的侧重点和优化方向有第一手资料,相当于坐拥一个大宝藏了。而且这些应用更贴近自己的业务场景,也不需要为其他云计算公司的其他业务做妥协。

再详细聊聊前文说的 Graviton 带来的三个技术趋势。第一个趋势,就是在亚马逊云科技的造芯「示范效应」下,全球各家云厂商都纷纷开始自研芯片了,而且自研芯片给亚马逊云科技自己的业务也带来了实打实的提升。

根据亚马逊云科技的数据,和前一代相比,基于 Graviton4 的 R8g 实例性能提升 30%,数据库性能提升 40%。国外也有手快的人第一时间做了测试,在 HPC、加密、代码编译、模拟仿真、光线追踪等实际应用场景下,Graviton4 都取得了不错的提升。

比如做数字芯片仿真常用的 Gem5 模拟器,编译一个大型芯片的仿真需要很久,所以编译速度非常关键。但从测试结果可以看到,使用 R8g 实例后编译速度明显提升,不仅比前几代有大幅提升,也比大厂的产品有 23%~49% 的提升。

之所以 Graviton 能在短短几年取得如此亮眼的成绩,一个重要的原因就是采用了 Arm 指令集架构,这也是他们引领的第二个技术趋势。x86 服务器芯片其实起源于客户端芯片,然后逐渐往里面增加服务器芯片需要的功能。而亚马逊云科技没有这样的包袱,他们就专注于服务器芯片本身,在利用了 Arm 架构低功耗、低延时的优点的同时,还结合自己的应用做了大量性能优化,也让 Graviton 成为了 Arm 架构在高性能计算领域的成功范例。

比如,Honeycomb 公司在测试了 R8g 实例后发现,和 x86 架构相比,Graviton 在降低尾延时方面效果最明显。与基于 Graviton3 的 C7g、M7g 或 R7g 实例相比,R8g 实例运行的副本数可减少 25%、中位数延迟降低 20%,第 99 百分位延迟降低了 10%

不仅如此,Graviton 已经开始进军 AI 领域。它特别内置了可伸缩矢量扩展(SVE)技术,它是单指令多数据(SIMD)的进一步延伸,允许 CPU 自由使用不同的向量长度,从而实现更加灵活的数据访问和计算,这也是 Arm 架构支持 AI 计算的杀手级技术之一。在 Graviton4 中,每个内核就集成了 4 个 128 位的 SVE-2 矢量引擎,明显就是着重发力高性能计算和 AI 应用。

此外,Armv8.6-A 架构中还特别添加了 SMMLA 和 FMMLA,可以在不同宽度的阵列上同时执行通用矩阵乘法,并且将取指周期缩短最高 4 倍、将计算周期缩短达 16 倍。

这些是 Arm 架构针对 ML 和 AI 的优化,Graviton 其实也做了很多自己的进一步优化。比如面向大语言模型的推理应用时,Graviton 针对 int4 和 int8 内核进行了优化,从而更好支持这些低精度数据指令。

根据亚马逊云科技的数据,在 Llama3-8B 模型的推理应用里,当进行提示词处理和 Token 生成时,Graviton3 比友商的第四代至强和第四代 EPYC 都取得了明显性能提升。那用了 Graviton4 之后,随着单核性能至少提升 30%,整体 AI 能力更是降维打击前一代。

Graviton 带来的第三个技术趋势,就是借助 Graviton 的加持,让亚马逊云科技这样的云计算公司更快从通用计算进军 AI 计算。未来的 AI 领域,大模型训练或许只是少数,而基于大模型的推理才是更加广泛的应用。这时算力就不完全是绝对且唯一的考虑因素,人们还需要思考更多关于功耗、成本、延时这些同样关键的指标。

很多人认为自研芯片是个投入极高的事情,事实也的确如此。但一旦芯片大规模量产部署,边际成本就会越来越低,自研芯片的成本优势甚至会在这个时候凸显出来。芯片界大神 Jim Keller 曾经说过,当摩尔定律驱使单颗芯片上晶体管数量不断增加的时候,单纯追求更多晶体管并没有意义,有意义的是如何把这些多出来的晶体管用起来

通过自研芯片,能去掉很多自己业务场景中不会出现、或极少出现的情况,让芯片的每个晶体管都能用起来。相比之下,芯片厂商需要兼顾不同客户之间的通用性,所以会不得不各种「端水」,造成面积和晶体管的浪费。这也是为什么基于 Graviton 的云计算实例更便宜的本质原因。

其实,很多传统云计算或许还有一些「历史包袱」,比如成堆的历史代码都是面向 x86 架构开发的,移植到 Arm 架构需要一定的时间和努力。但面向 AI、特别是大模型相关的应用时,x86 和 Arm 几乎是站在同一条起跑线,这也给没有历史包袱的 Arm 架构在 AI 端的应用提供了新的机会。

图灵奖得主 John Hennessy 和 David Patterson 说过,当前是计算机架构的新黄金时代。他们做的一个重要预言,就是 CPU 的架构将朝着更加精简的方向发展。而这条预言,几乎已经被 Graviton 变成了现实

Graviton 引领的三个技术趋势或许只是表象,当人们几乎一致认为 x86 CPU 就是终极解法时、当人们认为 AI 芯片等同于 GPU 时,它为我们揭示了技术发展更多的可能,并由此带来芯片设计范式的变革——这或许才是 Graviton 给行业带来的更大意义。

亚马逊云科技 re:Inforce 2024 中国站即将拉开帷幕!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

芯片 亚马逊云 云计算 亚马逊 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论