admin 管理员组

文章数量: 1184232

目录

一、Infiniband vs 以太网区别

二、典型 IB link width 速率

三、NDR/HDR的发展趋势

四、ib交换机各型号常见问题

4.1 交换机EDR-CS7500系列:

4.1.1交换机各种指示灯状态定义

4.1.2 交换机管理端口定义

4.1.3 开关机操作

4.2 HDR200-CS8500系列

4.2.1 NDR400-CS9500系列:

4.2.2 带管理模块和不带管理模块的交换机的区别:

五、 IB网络典型拓扑图

5.1 300节点的胖树拓扑

六、IB网络优化

6.1 检查网络内没有降速、init的链路

6.2 检查交换机上连线,数量是否正确。

6.3 检查相同型号的设备固件、驱动版本一致。

6.4 寻找链路质量不稳定的链路,比如误码率高、经常down的链路,定位问题原因,并处理。

七、IB网络常见问题

问题1:通过iblinkinfo、ibstat命令,看到节点HCA端口状态为Disable或Polling!

问题2:通过ibstat命令,看到节点HCA端口状态为Polling!

问题3:通过ibstat命令,看到节点HCA端口状态为Down/Initializing,但是物理状态为Linkup!

问题4:通过ibstat命令没有正常输出,通过iblinkinfo命令,看到该端口始终Init!


一、Infiniband vs 以太网区别

  • Ethernet和InfiniBand是特点鲜明的两种不同的互连技术,各有所长,都有自己的适用场景。Ethernet主要是为了实现万物互联。Infiniband主要表现在带宽、时延、网络可靠性、和组网方式上。
  • 在高性能计算场景中,数据传输很容易成为瓶颈,为了解决高带宽、低延时的要求,产生了RDMA技术,即可以直接访问另外一台节点内存中的数据。Infiniband天生支持RDMA。为了降低成本,产生在以太网上运行RDMA的技术,即ROCE。
  • 对于Ethernet的组网,当网络内的节点数量增加到一定程度的情况下,很容易产生arp风暴,造成带宽的浪费。为此,又引入了Vlan机制,为了避免环路,又引入的STP等等,又增加了延迟,等等。网络的配置会比较复杂。
  • 在高性能计算领域,丢包重传对整体性能的影响非常大。InfiniBand是一个完整的网络协议有自己定义的一至四层格式,发送端是否可以发送,是受接收端调度控制的,这样就可以保证报文从发送到接受都不会出现拥塞,这样不仅实现了真正意义上的无损网络;
  • Ethernet构造的网络没有基于调度的流控机制,导致报文在发出的时候是不能保证对端是否会出现拥塞的,因此,为了能够吸收网络内瞬时流量的突然增大,需要在交换内开辟多大数十MB的缓存空间用于暂时存储这些报文,而缓存的实现是非常占用芯片面积的,这使得同等规格的Ethernet的交换机芯片面积明显大于InfiniBand芯片,不仅成本高而且功耗也会更大,除此之外,由于没有端到端的流控机制,导致网络在略极端情况下,会出现缓存拥塞而导致的丢包,使得数据转发性能大幅波动。

二、典型 IB link width 速率

Roadmap 缩写及速率对照表: 

名称 缩写 信号速率 编码方式 实际数据速率 X4链路数据速率 X12链路数据速率
Single Data Rate SDR 2.5Gb/s 8b/10b 2Gb/s 8.Gb/s 24Gb/s
Double Data Rate DDR 5Gb/s 8b/10b 4Gb/s 16Gb/s 48Gb/s
QuadDataRate QDR 10.Gb/s 8b/10b 8Gb/s 32Gb/s 96.Gb/s
FourteenData Rate FDR 14.0625Gb/s 64b/66b 13.64Gb/s 54.54Gb/s 163.64Gb/s
Ehanced Data Rate EDR 25Gb/s 64b/66b 25.78125Gb/s 100Gb/s 300Gb/s
HighData Rate HDR 50Gb/s 64b/66b 50Gb/s 200Gb/s 600Gb/s
NextData Rate NDR 待定 待定 待定 400Gb/s 1200Gb/s
eXtremeDataRate XDR 待定 待定 待定 800Gb/s 待定
GxxDataRate GDR 待定 待定 待定 1.6T/s 待定
待定 LDR 待定 待定 待定 3.2T/s 待定

三、NDR/HDR的发展趋势

  • NDR vs HDR:
  • NDR性能更好,带宽是hdr的两倍,并且支持更多的加速库,更多功能,比如拥塞控制等等。理论上会提高更好的网络性能。
  • 产品规格不一样,对于小交换机,NDR交换机采用的64个NDR400的端口,可以通过split,设置成128个NDR200的端口。HDR采用的是40端口,可以通过split,设置成80个HDR100的端口。
  • HDR目前还是主流产品。NDR已规模商用。

HDR交换机

NDR交换机

  • ConnectX-7 网卡

ConnectX-7 智能网卡 (HCA) 可提供超低延迟、400Gb/s 的吞吐量和创新的 NVIDIA 网络计算加速引擎,可以进一步加速应用。ConnectX-7 可为超级计算机、人工智能和超大规模云数据中心提供所需的可扩展性和功能丰富的技术。

  •  ConnectX-8 网卡

ConnectX-8 InfiniBand SuperNIC 可提供 800 Gb/s 的数据吞吐量,并支持 NVIDIA 网络计算加速引擎,可提供支持万亿参数级 AI 工厂和科学计算工作负载所需的性能和各种强大功能。

四、ib交换机各型号常见问题

4.1 交换机EDR-CS7500系列:

用户手册:NVIDIA Mellanox CS7500 InfiniBand 智能机箱式交换机 | NVIDIA

4.1.1交换机各种指示灯状态定义

</

tatus LED []

LED 状态

描述

Leaf板没有上电

绿:常亮

Leaf板工作正常

绿:闪烁

Leaf板正在启动或者恢复出厂设置

本文标签: 常见问题 网络 amp mellanox Nvidia