NVIDIA大力支持InfiniBand

“
NVIDIA最新的第三季度业绩表现出色,营收达到181.2亿美元,同比增长206%,季度环比增长34%。公司特别强调InfiniBand网络的贡献,其年化营收已超过100亿美元,几乎是前一年的三倍。InfiniBand被视为训练大规模AI模型的关键要素,与NVIDIA HGX平台结合使用,构建了人工智能超级计算机和数据中心的基础架构。
NVIDIA 最新的第三季度业绩表现出色,显示出这家科技巨头增长势不可挡。最新的财报显示,营收达到 181.2 亿美元,同比增长 206%,季度环比增长 34%。公司甚至将这一惊人的营收增长归因于持续推出的 NVIDIA HGX 平台以及通过 InfiniBand 实现的端到端网络连接。
NVIDIA 特别强调了网络的贡献,其年化营收现已超过 100 亿美元,几乎是前一年的三倍。这归因于对 InfiniBand 的不断增长需求,同比增长了五倍。
完整的架构
InfiniBand 被认为对于训练 LLMs 所需的规模和性能至关重要,当与 NVIDIA HGX 结合使用时,它构成了人工智能超级计算机和数据中心基础架构的基础。
InfiniBand 在超级计算环境中常用于连接服务器。其最大优势在于提供低延迟和高带宽的通信,这对于并行处理任务至关重要。面对极大规模的数据集和高分辨率模拟的超高速处理,据说 NVIDIA 的 Quantum InfiniBand 交换机能以更低的成本和复杂性满足这些需求。
不久前,NVIDIA 刚刚取得了领先的 H100 芯片的突破性性能。测试使用了3,584个H100 GPU,它们通过InfiniBand相互连接,可以在独立和规模化的水平上提供卓越性能,从而证明了当与高性能网络结合时的强大能力。
InfiniBand:首选之选
谈到InfiniBand的未来,Jensen Huang表示,绝大多数专注于大规模AI工厂的企业都已经标准化采用了InfiniBand,这不仅因为其数据速率和延迟表现出色,还因为其数据在网络中的流动方式非常重要。他将其形容为一种"计算架构"。
与以太网相比,Huang谈到了两者之间的重大差异。NVIDIA在为AI工厂投资了20亿美元的基础设施,因此任何性能变化,即使是整体效率提高20%或30%,都将导致未来4-5年内数百万美元的价值变化,这将构成重大成本。
Huang认为,对于AI工厂来说,InfiniBand的价值主张是"不可否认的"。但并不排除以太网的用途。虽然InfiniBand适用于需要高带宽低延迟的情况,但以太网在其他情景中也有其应用。
以太网是一种广泛用于有线局域网络(LAN)的通用网络技术,更适用于连接终端设备等广泛应用领域。然而,其性能无法与InfiniBand相媲美。
有趣的是,NVIDIA还提供了连接InfiniBand数据中心与基于以太网的基础设施和存储的网关设备。此外,NVIDIA将在明年第一季度推出Spectrum-X,据说其以太网解决方案的网络性能将比其他可用以太网技术高出1.6倍。
就功能而言,英特尔的Omni Path Architecture(OPA)是为高速数据传输和低延迟通信在HPC环境中设计的。尽管它于2016年发布,但在2019年已经停产。另一方面,思科虽然拥有基于以太网的交换机,但在HPC领域没有相应产品。
整合扩展
GPU和网络产品的提供使企业现在可以选择将NVIDIA产品整合到他们的整个架构框架中。此外,NVIDIA还提到了与Reliance、Infosys和Tata等公司的合作伙伴关系,以及与其他组织合作,优化其AI计算需求中的InfiniBands。
在财报电话会议中,NVIDIA谈到了与法国私有云提供商Scaleway的合作,后者将基于NVIDIA H100 InfiniBand和AI Enterprise Software构建其区域AI云,以推动欧洲的人工智能进步。
此外,德国超级计算中心Julich也宣布了计划,将使用近24,000颗Grace Hopper Superchips和Quantum-2 InfiniBand构建下一代AI超级计算机,将其提升为全球性能最强大的AI超级计算机,具有超过90 exaflops的AI性能。
有趣的是,Microsoft Azure使用了超过29,000英里的InfiniBand电缆。Microsoft利用InfiniBand启用的HB和N系列虚拟机,以实现高性能计算,并具备成本效益。
通过将网络和GPU捆绑在一起,NVIDIA正在增强其在超级计算机市场的增长和地位。鉴于缺乏替代NVIDIA InfiniBands的选择,公司的主导地位看起来将进一步巩固,最终使其对于希望利用GPU和网络的公司变得不可或缺。

共有 0 条评论