
30系/A6000/Ampere是最后一代支持NVLink SLI的消费级架构,我想要搭建3090服务器也是因为想看看高速NCCL能有多快。
显存数据高速传输是个很好的想法,服务器级别的NVLink已经支持VRAM的RDMA了,可惜NV却拒绝给消费市场这个便利。
我们先来看一下不同GPU互联的速率:
pcie4.0x8 ~16GB/s (单向)
pcie4.0x16 ~32GB/s (单向)
pcie5.0x8 ~32GB/s (单向)
pcie5.0x16 ~64GB/s (单向)
Ampere NVLink bridges ~ 56GB/s (单向)
也就是说只有在用比较老的主板只能用pcie4.0x8的时候Ampere NVLink才可以带来约3.5倍的内存通信提升
而对于较新的主板以及工作站级别主板,提升只有1.7倍左右
对于当下上市的pcie5.0工作站主板以及5090,pcie带宽已经强过6年前的古董NVLink。
如果只是个人搭建服务器玩玩的话,完全没有必要花费NVLink的钱,pytorch DDP并不会因为缺少桥接慢多少,不如把钱花在买支持双pcie4.0x16的主板上。因为现在4槽Ampere NVLink已经要2000+了,实在不划算,而且货量少。
#服务器 #CPU #大模型 #芯片 #显卡 #显卡交火
显存数据高速传输是个很好的想法,服务器级别的NVLink已经支持VRAM的RDMA了,可惜NV却拒绝给消费市场这个便利。
我们先来看一下不同GPU互联的速率:
pcie4.0x8 ~16GB/s (单向)
pcie4.0x16 ~32GB/s (单向)
pcie5.0x8 ~32GB/s (单向)
pcie5.0x16 ~64GB/s (单向)
Ampere NVLink bridges ~ 56GB/s (单向)
也就是说只有在用比较老的主板只能用pcie4.0x8的时候Ampere NVLink才可以带来约3.5倍的内存通信提升
而对于较新的主板以及工作站级别主板,提升只有1.7倍左右
对于当下上市的pcie5.0工作站主板以及5090,pcie带宽已经强过6年前的古董NVLink。
如果只是个人搭建服务器玩玩的话,完全没有必要花费NVLink的钱,pytorch DDP并不会因为缺少桥接慢多少,不如把钱花在买支持双pcie4.0x16的主板上。因为现在4槽Ampere NVLink已经要2000+了,实在不划算,而且货量少。
#服务器 #CPU #大模型 #芯片 #显卡 #显卡交火


