网络交换机行业报告（29页）

行业报告下载 2024年07月05日 09:50 管理员

集群的有效算力可以分解为 GPU 利用率、集群的线性加速比，GPU 的利用率受制于芯片架构的制程、内存和 I/O 访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素， “集群线性加速比”则取决于节点的通信能力、并行训练框架、资源调度等因素。因而，如何设计高效的集群组网方案，满足低时延、大带宽、无阻塞的机间通信，从而降低多机多卡间数据同步的通信耗时，提升 GPU 有效计算时间比（GPU 计算时间/ 整体训练时间）至关重要。基于中国移动研究院的《面向 AI 大模型的智算中心网络演进白皮书》，AI 大模型对网络建设也提出了新的要求：超大规模组网：训练参数达到千亿-万亿级别的 AI 超大模型代表着超高速算力需求，并进一步对应着大量的硬件需求及与之匹配的网络可延展能力。根据《面向超万卡集群的新型智算技术白皮书》，当单集群中卡的数量达到万卡级别后，相应的，如何实现最优运算效率、最佳数据处理能力、硬件层面的万卡互联、网络系统的可用和易运维等，会成为 AI 智算中心的新议题。RDMA（(Remote Direct Memory Access 远程直接内存访问)可以降低多机多卡间端到端通信时延。在传统网络中，数据传输涉及多个步骤：首先将数据从源系统的内核复制到网络堆栈，然后通过网络发送。最后，在接收端执行多个步骤后，将数据复制到目标系统的内核中。RDMA 可以绕过操作系统内核，让一台主机可以直接访问另外一台主机的内存。目前 RDMA 技术的主要采用方案有 Infiniband 和 RoCEv2（基于 RDMA 的 Ethernet 技术，后简称为 RoCE）两种。

网络交换机行业报告（29页）