[Download]资源名称:摩根斯坦利报告:人工智能的力量:灵活算力——AI增长的下一个浪潮(英文,60页)...
2026-05-11 29 人工智能AI行业报告
在计算架构层面,大模型的训练和应用通常需要处理大规模的数据集,这将增加对于高带宽的需求,以执行数据 并行、流水线并行及张量并行等策略。为了满足大模型对计算资源的高需求,提升单节点的计算性能 (Scale-up)变得至关重要,这包括增加单芯片或单个机架的计算能力。通常,配备8块高性能GPU的服务器可 以支持具有2,000亿参数的大模型训练,而当插卡数量可扩展至72块高性能GPU时,则能够有效支持具有万亿参 数的大模型训练,这将有效加速智能涌现的实现。其次,通过增加节点数量,实现计算能力的横向扩展 (Scale-out),也正在被用于需要处理大规模数据集和复杂模型的应用场景。高速互联网络(以太网和硅光子技 术)和分布式计算框架将有效支持千卡、万卡甚至十万卡的集群建设。通过构建具有更高性能的计算集群,支持 更复杂的大模型计算和多样化的应用场景。此外,伴随大模型从训练阶段迈向应用阶段,推理工作负载将持续增 加,面向应用和推理需求对芯片和系统架构进行设计愈加重要,大语言模型推理包含两个重要的阶段:预填充 (Prefill)和解码(Decode),两个阶段处理token序列的长度不同,对计算和存储资源的访问频率和调度需求 也不同,实操中往往采用P-D解耦部署策略,通过构建分离式算力资源池,缩短计算时间,降低计算成本,提高 资源利用率。 在数据中心层面,首先,提高集群系统的可用性和可靠性十分重要,从千卡集群到万卡、十万卡集群,节点故障 几率会随集群规模增长而上升,数据中心需要更加高效的监控体系和先进的故障恢复机制,基于诸如智能显存分 配、故障点恢复管理等技术,确保集群在发生节点故障时能够迅速响应,最小化停机时间。其次,应重视算力体 系的兼容性和可扩展性建设,在执行模型训练、推理等工作任务时,CPU、GPU、ASIC等不同类型的计算资源各 具优势,因此需要协同异构基础设施,将整个数据中心作为协同工作的有机体,整合多种计算资源,优化数据处 理流程和模型训练效率,通过灵活的计算任务调度,高效执行人工智能任务。最后,随着单机柜性能大幅提升, 能耗将持续攀升,通常GPU功耗在250W到700W之间,服务器单机柜功率可高达130KW,数据中心应持续优化能 耗方案,通过优化空间规划、供电系统,并采用先进冷却技术,提高散热特性,应对能耗挑战。

标签: 人工智能AI行业报告
相关文章
[Download]资源名称:摩根斯坦利报告:人工智能的力量:灵活算力——AI增长的下一个浪潮(英文,60页)...
2026-05-11 29 人工智能AI行业报告
[Download]资源名称:AI原生组织研究报告:OpenClaw推动组织形态重塑(47页)...
2026-05-08 45 人工智能AI行业报告
面对 AI 技术的狂飙突进,站在生产力跃升的拐点,我们更愿抛出一个积极的论断:2026 年,大模型不仅不会取代优秀的营销团队, 反而会成为企业构建核心...
2026-05-08 51 人工智能AI行业报告
AI Agent分类体系主要围绕技术实现路径与生态影响模式展开。按技术路径,分为 API Agent与GUI Agent两类。API Agent依托标...
2026-05-07 52 人工智能AI行业报告
“十五五”时期(2026-2030 年)是我国建设社会主义文化强国的关键攻坚期,也是数字文化产业实现高质量发展、 构建全球竞争力的战略窗口期。围绕 国...
2026-05-06 37 人工智能AI行业报告
最新留言