节点内GPU互联拓扑

date
May 4, 2025
slug
gpu_intra_node_topo
tags
Intra Node
GPU
TOPO
summary
本文讲解了NVIDIA不同架构下常见的节点内拓扑结构, 包括DGX和HGX的区别
type
Post
标签
GPU
互联
DGX
HGX
拓扑
状态
进行中
描述
重要性
🌟🌟
关键字
参考链接
status
Published
 

TODO

superpod

🥰总结

名称
DGX-V100
DGX-A100
DGX-H100/H200
DGX-B200
CPU
2
2
2
GPU型号
V100
A100
H100/H200
GPU数量
8
8
8
PCIe Swithch
一共4个, 每个CPU接2个, 每个接2张卡
同左
一共8个, 每个CPU挂载4个,每个接一张卡
GPU网卡数量
4个, 每个PCIe Switch挂载一个
8个, 每个PCIe Switch挂载两个, 每个GPU独享一个
GPU网卡型号
CX-6 200Gb/s
CX-7 400Gb/s
存储网卡数量
2
2
系统存储容量
2 x 2 TB NVMe
数据存储容量
8 x 4 TB NVMe
NVLINK
NVSwitch
6个 第三代
4个 第四代
NVSwitch带宽
900GB/s

⁉️问题

 

🧐内容

 

NVIDIA系列

DGX和HGX

1. DGX只能整机购买, HGX可以卖独立器件给OEM厂商(浪潮等)组装
2. DGX是一个整机, HGX可扩展
3. DGX对的跨板NVLink通过背板互联, HGX通过线缆互联

DGX1-V100

拓扑

notion image

板卡

组网细节

  1. 8张卡通过私有协议组成多个环,且可双工;
  1. 使用了NVLINK( ), 网络带宽 NVLINK>PCIE switch > QPI;
  1. 前四张卡和后四张卡分别两两全互联
  1. 网卡可根据需要选择 1/2/4/8张RDMA物理网卡;

DGX-A100

拓扑

notion image
notion image

组网细节

  1. 每个CPU挂载一个存储网卡
  1. 8张卡通过NVSwitch实现全互联
  1. 首次使用了NVSwitch:6个,与NVLink Switch外置的单独交换机设备不同,NVSwitch是集成在基板上的交换芯片,与GPU Model模组一体的。
  1. 专用网卡NIC:8张,支持RDMA协议,GPU专用的计算网卡。
  1. 每个PCIe Switch下还挂载了NVMe内存
  1. PCIe Gen4 x16

DGX-H100

拓扑

notion image

组网细节

  1. 通过4个NVSwitch芯片实现8卡全互联
  1. PCIe Gen5 x16(双向带宽128GB/s)
  1. 网卡换成了CX7(400Gbps)

DGX- B200

notion image
 

© 木白 2024 - 2025