您的位置: 首页 > 热点 >

一窥全球最快超算内部

如果您希望可以时常见面,欢迎标星收藏哦~

近日,美国能源部最新推出的超级计算机、Top500 排名第一的El Capitan在加州的 LLNL 举行了落成典礼。落成典礼结束后,他们让我带着手机进入 El Capitan。通常,这是一个不允许使用电子设备的区域,手机也不能进入。今天,我进去了。

El Capitan落成典礼

在提交信息以获得现场访问验证后,我们获得了一个徽章并被护送到礼堂。在那里,LLNL、NNSA、DoE 和其他人员就 El Capitan 发表了演讲。

显然,HPE 的首席执行官 Antonio Neri 曾在利弗莫尔住过一段时间。我问 Antonio,El Capitan上的这项工作如何转化为 AI 销售。他说,所有底层技术(包括 GPU 计算、网络、液体冷却、电力输送等)的大规模部署都直接转化为 AI 集群。

AMD 首席执行官 Lisa Su 带来了一台拆开盖子的 AMD Instinct MI300A,并将其带到了讲台上。Lisa 还对这如何转化为人工智能的问题给出了深刻的回答。她的回答是,这是 El Capitan 中超过 40,000 个加速器的大规模部署和运行的又一个证明点。这意味着 AMD 和 HPE 团队需要设计可靠性,以便在可能需要数月的模拟中运行系统。

对于参与该项目的人们来说,这已经过去很久了。我记得在疫情爆发前,我被邀请到 HPE 总部的一个小房间,在那里宣布了HPE-Cray 和 AMD 获胜。疫情前的任何事情现在都感觉像是古老的历史。

在今天的演讲中,我们还快速浏览了一些模拟,例如这个模拟,显示了 El Capitan 中仅 2048 个节点上的 1390 亿个区域中的受冲击的锡表面。对于那些不知道的人来说,El Capitan 的任务是机密的,但一般来说是为了支持美国的武器计划。这使得看到系统内部的情况变得不同寻常。

当然,这是 STH,所以我热切地等待着有机会看到这个系统。令我惊讶的是,在电子产品投放区,他们允许我带手机拍照。起初我以为我只会看到令人印象深刻的节点。CoolIT 提供液体冷却块。几年前,在 CoolIT 液体实验室之旅中,我在卡尔加里展示并握住一个Frontier 节点,了解液体冷却的原型设计和测试。

LLNL 1 的 El Capitan 节点

注释如下:

1. 节点

2. SIVOC

3. Slingshot NIC 夹层卡

4. 冷板

5. AMD Instinct MI300A APU。

还有一个托盘,上面有四个已安装的 APU 插槽和四个未安装的插槽节点。与当今大多数系统不同,每个插槽和封装都是一组集成的芯片,涵盖 CPU 核心、GPU 核心和高带宽内存 ,因此我们有一组统一的插槽,并且每个插槽的侧面没有 DIMM 插槽。

LLNL 1 的 El Capitan HPE 节点无需冷却和 Slingshot

幸运的是,El Capitan 的开放时间恰逢其时,它即将开始执行机密任务。接下来,让我们来看看运行系统。

近距离观察El Capitan

在大楼里,El Capitan 安装在楼上,而不是一楼。通常有一个通往数据大厅的观察窗,但我被允许进入里面。

HPE Cray AMD El Capitan 位于 LLNL 1 的靠窗侧通道

值得注意的是,目前 Top500 榜单上排名第 10 的 Tuolumne 系统就安装在 El Capitan 旁边。该系统将支持非机密科学。

HPE AMD Tuolumne 位于 LLNL 1

通常情况下,俯瞰 El Capitan 的座位排,看起来应该是这样的。我问了一些地方缺少瓷砖的原因。显然,地板需要加固,以适应 9000 磅的架子。

LLNL 1 的 El Capitan 的 HPE Cray AMD 液冷机架的封闭过道

然而,在这一天,一些门被关闭了,人们可以看到这个系统的辉煌。

LLNL 1 的 El Capitan 的 HPE Cray AMD 液冷机架的过道下方

或者只是在液体冷却架前自拍。

Patrick 在 LLNL 1 使用液冷 HPE Cray 和 AMD Rack CDU El Capitan

每个机架有 128 个计算刀片,完全采用液体冷却。该系统非常安静,噪音主要来自存储和地板上的其他系统。

LLNL 1 的 El Capitan 采用液冷 HPE Cray 和 AMD 机架

在机架的另一侧,我们安装了 HPE Slingshot 互连电缆,该电缆连接了 DAC 和光学器件。Slingshot 互连侧还有蓝色和红色的液体冷却管。

LLNL 1 的 El Capitan 的 HPE Cray AMD 液冷机架网络通道

Slingshot 互连器没有完全填充,这很好看。我们将在下一页展示 Rabbit 占用这些机架后部的空间。

主系统后面有很多存储空间。这就是存储架的样子。

LLNL 1 的 El Capitan 共享存储架

我听说这些主要是基于磁盘的机架。这与我们在许多专注于基于闪存的共享存储的 AI 数据中心中看到的有所不同。

The Rabbit of HPE

El Capitan 有一个我直到今天才知道的功能。也许我当时没注意到。这是 Slingshot 互连侧的特写。您可以看到这也是液体冷却的,并且 Slingshot 开关托盘仅占据此处显示的空间的下半部分。LLNL 的人们说,他们的代码不需要填充整个 HPE Slingshot 区域。相反,他们有足够多的带宽,一半填充,留下额外的空间。

LLNL 1 的 El Capitan Rabbit 和 Slingshot 的 HPE AMD 机架背面

在顶部部分,并不是空白的,而是有“Rabbit”。Rabbit 总共装有 18 个 NVMe SSD,并且像系统的其他部分一样采用液体冷却。

El Capitan HPE Rabbit 在 LLNL 1

我们看到了系统内部,看到了 APU 以外的东西。相反,有一个看起来像AMD EPYC 7003 Milan部件的 CPU,考虑到 AMD MI300A 的代数,感觉还不错。与 APU 不同,Rabbit 的 CPU 有 DIMM,还有看起来像是液冷的 DDR4 内存。与标准刀片一样,所有东西都是液冷的,因此系统中没有任何风扇。

El Capitan HPE Rabbit CPU 和内存位于 LLNL 1

还有许多 PCIe 电缆。显然,Rabbit 既可以作为独立服务器运行,拥有大量存储空间,可用于执行数据准备任务等。或者,它也可以用作集群内的共享存储。

很难不感觉到 Rabbit 可能是周围设计最过度的单插槽存储服务器。

最后的话

这是一次非常酷的经历,让我有机会在大型集群的幕后一探究竟。虽然它的规模还不到我们 9 月份拍摄的xAI Colossus 集群的一半,当时该集群拥有 100,000 个 GPU,但值得注意的是,这样的系统仍然非常庞大,而且其预算仅为 100,000 多个 GPU 系统的一小部分。

LLNL 1 的 El Capitan 的 HPE Cray AMD 液冷机架的过道下方

我还有一些照片和视频需要浏览,也许在本周末飞往台北的飞机上。如果我在浏览这些照片和视频时发现一些有趣的东西,您可能会在 Substack 上看到一篇周末文章,其中包含更高分辨率的照片和更多细节。该视频可能会出现在STH Labs 短片频道上。

看到大型系统总是一件很棒的事情,因为它们通常隐藏在摄像机之外。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

今天是《半导体行业观察》为您分享的第4004期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

推荐内容
  • 01月11日 《时代周刊》选中的202
  • 01月11日 “险资入苏”推动高质量发
  • 01月11日 沈抚示范区:城市更新让老
  • 01月11日 中国—东盟医药区域集采平
  • 01月11日 参半口腔创始人尹阔:下一
  • 01月11日 洋浦港扩建工程刷新建设“
  • 01月11日 王鹤棣田曦薇《大奉打更人
  • 01月11日 云南大理开通首条国际直飞
随机图文
热门文章