首页 行业报告下载文章正文

中国人工智能计算力发展评估报告(46页)

行业报告下载 2025年03月21日 08:33 管理员

在计算架构层面,大模型的训练和应用通常需要处理大规模的数据集,这将增加对于高带宽的需求,以执行数据 并行、流水线并行及张量并行等策略。为了满足大模型对计算资源的高需求,提升单节点的计算性能 (Scale-up)变得至关重要,这包括增加单芯片或单个机架的计算能力。通常,配备8块高性能GPU的服务器可 以支持具有2,000亿参数的大模型训练,而当插卡数量可扩展至72块高性能GPU时,则能够有效支持具有万亿参 数的大模型训练,这将有效加速智能涌现的实现。其次,通过增加节点数量,实现计算能力的横向扩展 (Scale-out),也正在被用于需要处理大规模数据集和复杂模型的应用场景。高速互联网络(以太网和硅光子技 术)和分布式计算框架将有效支持千卡、万卡甚至十万卡的集群建设。通过构建具有更高性能的计算集群,支持 更复杂的大模型计算和多样化的应用场景。此外,伴随大模型从训练阶段迈向应用阶段,推理工作负载将持续增 加,面向应用和推理需求对芯片和系统架构进行设计愈加重要,大语言模型推理包含两个重要的阶段:预填充 (Prefill)和解码(Decode),两个阶段处理token序列的长度不同,对计算和存储资源的访问频率和调度需求 也不同,实操中往往采用P-D解耦部署策略,通过构建分离式算力资源池,缩短计算时间,降低计算成本,提高 资源利用率。 在数据中心层面,首先,提高集群系统的可用性和可靠性十分重要,从千卡集群到万卡、十万卡集群,节点故障 几率会随集群规模增长而上升,数据中心需要更加高效的监控体系和先进的故障恢复机制,基于诸如智能显存分 配、故障点恢复管理等技术,确保集群在发生节点故障时能够迅速响应,最小化停机时间。其次,应重视算力体 系的兼容性和可扩展性建设,在执行模型训练、推理等工作任务时,CPU、GPU、ASIC等不同类型的计算资源各 具优势,因此需要协同异构基础设施,将整个数据中心作为协同工作的有机体,整合多种计算资源,优化数据处 理流程和模型训练效率,通过灵活的计算任务调度,高效执行人工智能任务。最后,随着单机柜性能大幅提升, 能耗将持续攀升,通常GPU功耗在250W到700W之间,服务器单机柜功率可高达130KW,数据中心应持续优化能 耗方案,通过优化空间规划、供电系统,并采用先进冷却技术,提高散热特性,应对能耗挑战。

中国人工智能计算力发展评估报告(46页)

文件下载
资源名称:中国人工智能计算力发展评估报告(46页)


标签: 人工智能AI行业报告

并购家 关于我们   意见反馈   免责声明 网站地图

分享

复制链接

ipoipocn@163.com

发送邮件
电子邮件为本站唯一联系方式