Nvidia近日宣布面向专注于人工智能的服务器推出下一代以太网网络技术,并表示,戴尔、HPE和联想将率先将这种技术集成到他们的产品中。
Nvidia表示,此次推出的Spectrum-X技术是专为AI工作负载设计的,能够为AI通信提供比传统以太网高1.6倍的网络性能。
戴尔、HPE和联想公布的新服务器产品将Spectrum-X与Nvidia最强大的H100 Tensor Core GPU以及AI Enterprise和AI Workbench软件相结合。据称,这些厂商将为那些想要实施最先进生成式AI模型的企业提供了完整的方案。据Nvidia称,Spectrum-X将结合最新的Spectrum-4以太网交换机高速性能与Nvidia BlueField-3 SuperNIC(如图所示)
BlueField SuperNIC是面向AI场景而生的新型高性能网卡,沿用了DPU(数据处理器)的架构,但是面向特定的AI东西向流量使用场景,以追求极致性能和系统的高扩展性为目标,兼顾部分DPU的功能。
BlueField SuperNIC源于BlueField DPU,但是区别于DPU。DPU专注于对于基础设施操作的卸载,是对于传统的南北向流量的优化。在对于东西向流量的优化上,传统的方法已经不再适用,需要用到新的技术和新的端到端平台。InfiniBand网络无疑是目前最强的东西向网络,但是传统的云厂商还是有一部分倾向于使用以太网,BlueField SuperNIC借鉴了InfiniBand网络上的动态路由、拥塞控制和性能隔离等技术,又兼容了传统以太网在云上的便利性,满足了生成式AI云对于性能、扩展性和多租户的需求。
随着大模型的出现和流行,如何提升GPU集群的分布式计算性能和效率、提高GPU集群的横向扩展能力、实现在生成式AI云上的业务性能隔离,成为了所有大模型厂商和AI服务供应商共同关注的问题。 面向东西向流量性能优化的BlueField SuperNIC 应运而生,通过和先进的智能交换机及加速软件的配合,实现了动态路由、可编程的拥塞控制、业务在云上的性能隔离等,让云上的AI性能保障不再是难题。
BlueField SuperNI核心结构包括有CPU + 智能网卡 + PCIe交换 + DOCA软件开发包。面向AI云应用场景,软件上实现了无损(Lossless)RoCE技术和NCCL等通信库的整体优化,硬件上与智能交换机相配合,实现简单、直接、高效的端到端无损以太网动态路由和拥塞控制,并为用户提供开放的编程接口来兼容定制化的算法优化通信性能和效率。
NVIDIA BlueField SuperNIC实现了60%以上的通信效率提升,70%的大模型训练性能提升,消除了生成式AI云上的多任务并发训练的相互干扰,实现了业务的性能隔离。
文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com