节点内GPU互联拓扑
date
May 4, 2025
slug
gpu_intra_node_topo
tags
Intra Node
GPU
TOPO
summary
本文讲解了NVIDIA不同架构下常见的节点内拓扑结构, 包括DGX和HGX的区别
type
Post
标签
GPU
互联
DGX
HGX
拓扑
状态
进行中
描述
重要性
🌟🌟
关键字
参考链接
status
Published
TODO
superpod
🥰总结
名称 | DGX-V100 | DGX-A100 | DGX-H100/H200 | DGX-B200 |
CPU | 2 | 2 | 2 | ㅤ |
GPU型号 | V100 | A100 | H100/H200 | ㅤ |
GPU数量 | 8 | 8 | 8 | ㅤ |
PCIe Swithch | 一共4个, 每个CPU接2个, 每个接2张卡 | 同左 | 一共8个, 每个CPU挂载4个,每个接一张卡 | ㅤ |
GPU网卡数量 | 4个, 每个PCIe Switch挂载一个 | 8个, 每个PCIe Switch挂载两个, 每个GPU独享一个 | ㅤ | ㅤ |
GPU网卡型号 | ㅤ | CX-6 200Gb/s | CX-7 400Gb/s | ㅤ |
存储网卡数量 | 无 | 2 | 2 | ㅤ |
系统存储容量 | ㅤ | ㅤ | 2 x 2 TB NVMe | ㅤ |
数据存储容量 | ㅤ | ㅤ | 8 x 4 TB NVMe | ㅤ |
NVLINK | ㅤ | ㅤ | ㅤ | ㅤ |
NVSwitch | 无 | 6个 第三代 | 4个 第四代 | ㅤ |
NVSwitch带宽 | ㅤ | ㅤ | 900GB/s | ㅤ |
⁉️问题
🧐内容
NVIDIA系列
DGX和HGX
1. DGX只能整机购买, HGX可以卖独立器件给OEM厂商(浪潮等)组装
2. DGX是一个整机, HGX可扩展
3. DGX对的跨板NVLink通过背板互联, HGX通过线缆互联
DGX1-V100
拓扑

板卡
组网细节
- 8张卡通过私有协议组成多个环,且可双工;
- 使用了NVLINK( ), 网络带宽 NVLINK>PCIE switch > QPI;
- 前四张卡和后四张卡分别两两全互联
- 网卡可根据需要选择 1/2/4/8张RDMA物理网卡;
DGX-A100
拓扑


组网细节
- 每个CPU挂载一个存储网卡
- 8张卡通过NVSwitch实现全互联
- 首次使用了NVSwitch:6个,与NVLink Switch外置的单独交换机设备不同,NVSwitch是集成在基板上的交换芯片,与GPU Model模组一体的。
- 专用网卡NIC:8张,支持RDMA协议,GPU专用的计算网卡。
- 每个PCIe Switch下还挂载了NVMe内存
- PCIe Gen4 x16
DGX-H100
拓扑

组网细节
- 通过4个NVSwitch芯片实现8卡全互联
- PCIe Gen5 x16(双向带宽128GB/s)
- 网卡换成了CX7(400Gbps)
DGX- B200
‣
