盘古大模型研究报告： AI模型（38页）

行业报告下载 2023年05月22日 07:22 管理员

盘古大模型已经在 100 多个行业场景完成验证，包括能源、零售、金融、工业、医疗、环境、物流等等。盘古 NLP 大模型涉及千亿参数、40TB 训练数据，对算法、算力、海量数据处理、并行优化都提出了很大挑战。在算法方面，华为云算法团队和循环智能（Recurrent AI）的 NLP 团队联合攻关，突破了大模型微调的难题。鹏城实验室的国内最大规模 AI 训练集群鹏城云脑 II 在盘古 NLP 大模型训练中提供了强大的 AI 算力和数据吞吐能力，为盘古大模型训练打下坚实的基础。此外，华为底层软件、训练框架、ModelArts 平台协同优化，充分释放算力，达成了全栈性能最优。具体来看，首先，针对底层算子性能，盘古大模型基于华为 CANN 采用了算子量化、算子融合优化等技术，将单算子性能提升 30%以上。其次，华为 MindSpore 创新性地采用了“流水线并行、模型并行和数据并行”的多维自动混合并行技术，大幅降低了手动编码的工作量，并提升集群线性度 20%。华为云 ModelArts 平台提供 E 级算力调度，同时结合物理网络拓扑，提供动态路由规划能力，为大模型训练提供了最优的网络通信能力。通过借助 ModelArts 平台的高效处理海量数据能力，仅用 7 天就完成了 40TB 文本数据处理。

一站式 AI 开发平台 ModelArts 为盘古大模型训练和推理提供计算优化、通信优化、存储优化以及算法优化，是盘古大模型重要的基础平台资源。盘古大模型具备极强的泛化能力、一个模型适用大量复杂行业场景。在 to B 以及 to C 场景下，盘古大模型具备良好的泛用性，大规模参数的模型可以更深层挖掘数据背后的逻辑，达到更高的泛化性能，对不同场景的鲁棒性更强，原来需要多个模型覆盖的视觉场景，大模型可以用一个模型覆盖多个场景，以此解决模型碎片化问题。盘古大模型吸收了海量数据知识，盘古 NLP 大模型学习了 40TB 的中文文本数据，CV 大模型包含了 30 亿+参数，并通过行业数据的小样本调优，提升了模型在场景中的应用性能，提高了大模型的泛化能力以及算法对新鲜样本的适应能力，从而提高模型的学习能力，减少对领域数据标注的依赖。在大多数工业场景，从海量数据搜集缺陷样本耗时耗力，盘古大模型能够实现缺陷样本高效筛选，节省了 80%以上的人力标注代价。此外，基于产业场景中存在大量的内容理解需求，盘古大模型采用兼顾架构，在预训练阶段沉淀了大量的通用知识，能够同时完成理解与生成任务，使得大模型有能力支持行业知识库和数据库的嵌入，对接行业经验。随着盘古大模型的开放，各行各业的开发者不必再 “从零开始”，只需在云上找到所需要的模型，盘古大模型相当于各个行业 AI 通用的“轮子”，助力各行各业加速智能化转型。