中国人工智能计算力发展评估报告（46页）

行业报告下载 2025年03月21日 08:33 管理员

在计算架构层面，大模型的训练和应用通常需要处理大规模的数据集，这将增加对于高带宽的需求，以执行数据并行、流水线并行及张量并行等策略。为了满足大模型对计算资源的高需求，提升单节点的计算性能（Scale-up）变得至关重要，这包括增加单芯片或单个机架的计算能力。通常，配备8块高性能GPU的服务器可以支持具有2,000亿参数的大模型训练，而当插卡数量可扩展至72块高性能GPU时，则能够有效支持具有万亿参数的大模型训练，这将有效加速智能涌现的实现。其次，通过增加节点数量，实现计算能力的横向扩展（Scale-out），也正在被用于需要处理大规模数据集和复杂模型的应用场景。高速互联网络（以太网和硅光子技术）和分布式计算框架将有效支持千卡、万卡甚至十万卡的集群建设。通过构建具有更高性能的计算集群，支持更复杂的大模型计算和多样化的应用场景。此外，伴随大模型从训练阶段迈向应用阶段，推理工作负载将持续增加，面向应用和推理需求对芯片和系统架构进行设计愈加重要，大语言模型推理包含两个重要的阶段：预填充（Prefill）和解码（Decode），两个阶段处理token序列的长度不同，对计算和存储资源的访问频率和调度需求也不同，实操中往往采用P-D解耦部署策略，通过构建分离式算力资源池，缩短计算时间，降低计算成本，提高资源利用率。在数据中心层面，首先，提高集群系统的可用性和可靠性十分重要，从千卡集群到万卡、十万卡集群，节点故障几率会随集群规模增长而上升，数据中心需要更加高效的监控体系和先进的故障恢复机制，基于诸如智能显存分配、故障点恢复管理等技术，确保集群在发生节点故障时能够迅速响应，最小化停机时间。其次，应重视算力体系的兼容性和可扩展性建设，在执行模型训练、推理等工作任务时，CPU、GPU、ASIC等不同类型的计算资源各具优势，因此需要协同异构基础设施，将整个数据中心作为协同工作的有机体，整合多种计算资源，优化数据处理流程和模型训练效率，通过灵活的计算任务调度，高效执行人工智能任务。最后，随着单机柜性能大幅提升，能耗将持续攀升，通常GPU功耗在250W到700W之间，服务器单机柜功率可高达130KW，数据中心应持续优化能耗方案，通过优化空间规划、供电系统，并采用先进冷却技术，提高散热特性，应对能耗挑战。