AWS和英伟达打造了一台16384个超级芯片的超级计算机

AWS和英伟达打造了一台16384个超级芯片的超级计算机-3

亚马逊网络服务(AWS)与Nvidia达成战略合作,提供基于Nvidia GPU的生成AI基础设施,包括Ceiba项目创建的AI超级计算机,Nvidia DGX Cloud,新的EC2实例和先进的生成AI软件,加速云端生成AI开发,推动多领域应用和创新。合作旨在满足不断增长的AI需求,提供高性能计算解决方案。

尽管许多公司正在研发用于人工智能(AI)工作负载的加速器,但Nvidia的CUDA平台目前在AI支持方面无人能敌。因此,对基于Nvidia的AI基础设施的需求很高。为了应对这一需求,亚马逊网络服务(Amazon Web Services,AWS)和Nvidia建立了战略合作伙伴关系,AWS将提供基于Nvidia的生成AI基础设施,两家公司将在多个关键项目上合作。

“如今,我们为各种工作负载提供最广泛的Nvidia GPU解决方案,包括图形、游戏、高性能计算、机器学习,现在还包括生成AI,” AWS首席执行官亚当·塞利普斯基(Adam Selipsky)表示。“我们与Nvidia继续合作创新,将AWS打造成运行GPU的最佳选择,结合下一代Nvidia Grace Hopper超级芯片、AWS强大的EFA网络、EC2 UltraClusters的超大规模集群和Nitro的高级虚拟化能力。”

Ceiba项目是合作的重要组成部分,旨在创建由AWS托管的世界上最快的GPU驱动AI超级计算机,专为Nvidia独家提供。这一雄心勃勃的项目

将整合16,384个Nvidia GH200超级芯片(采用GH200 NVL32解决方案,每个解决方案装有32个GH200 GPU和19.5 TB的统一内存),将提供惊人的65个“AI ExaFLOPS”的处理能力。这台超级计算机将用于Nvidia的生成AI研究和开发项目。

托管在AWS上的Nvidia DGX Cloud是合作的另一个重要组成部分。这个AI训练即服务平台是第一个商用可用的实例,将GH200 NVL32机器与19.5 TB的统一内存整合在一起。该平台为开发人员提供了单个实例中最大的共享内存,极大地加速了先进的生成AI和大型语言模型的训练过程,可能超过1万亿个参数。

此外,AWS将成为首个提供基于Nvidia GH200 Grace Hopper超级芯片的云AI超级计算机的云服务提供商。这种独特的配置将使用NVLink连接每个实例的32个Grace Hopper超级芯片。它将通过亚马逊的EFA网络连接扩展到数千个GH200超级芯片(和4.5 TB的HBM3e内存),并受到高级虚拟化(AWS Nitro系统)和超大规模集群(Amazon EC2 UltraClusters)的支持。

此合作还将推出新的基于Nvidia的Amazon EC2实例。这些实例配备了多达141 GB的HBM3e内存的H200 Tensor Core GPU,适用于大规模生成AI和高性能计算(HPC)工作负载。此外,G6和G6e实例,分别配备了NvidiaL4和L40S GPU,旨在广泛应用于从AI微调到3D工作流开发等各种应用,利用Nvidia Omniverse创建支持AI的3D应用程序。

最后,此合作还将引入Nvidia的先进软件,以加速在AWS上的生成AI开发。这包括NeMo LLM框架和NeMo Retriever,用于创建聊天机器人和摘要工具,以及加速药物发现流程的BioNeMo。

“生成AI正在改变云工作负载,并将加速计算置于多样化内容生成的基础之上,” Nvidia创始人兼首席执行官黄仁勋(Jensen Huang)表示。“出于将卓越的成本效益的最新生成AI提供给每一位客户的共同使命,Nvidia和AWS在整个计算堆栈上进行合作,涵盖了AI基础设施、加速库、基础模型,以及生成AI服务。”

版权声明:
作者:小火箭
链接:https://www.xiaohuojian8.top/222.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>