ChatGPT行业报告：AI算力和行业应用潜力（45页）

行业报告下载 2023年03月30日 07:37 管理员

大模型的实现需要十分强大的算力来支持训练过程和推理过程。根据OPENAI数据，训练GPT-3 175B的模型，需要的算力高达3640 PF-days（即以1PetaFLOP/s的效率要跑3640天）。2018年以来，大模型的参数量级已达到数千亿参数的量级规模，对算力的需求将呈现指数级增长。根据《COMPUTE TRENDS ACROSS THREE ERAS OF MACHINE LEARNING》研究结果，大模型时代，算力翻倍的需求时间是9.9个月。AI芯片的性能提升成为决定大模型从理论实践到大规模应用的关键要素。在供给端，AI芯片厂商推出了性能越来越强的新产品来应对人工智能发展的算力需求。以英伟达为例，2020年，英伟达推出了A100 GPU芯片，相比上一代V100 GPU芯片，A100 GPU芯片性能大幅提升。针对大模型，A100 GPU芯片相比V100 GPU芯片可提供高达3倍的训练速度。

在训练端：据报道，2020年，微软宣布与OpenAI合作，建成了一台超级计算机，专门用来在Azure公有云上训练超大规模的人工智能模型。这台为OpenAI开发的超级计算机拥有超过28.5万个CPU核心，拥有超过1万个GPU（V100 GPU芯片）。以此规格，如果自建IDC，以A100 GPU芯片替代V100 GPU芯片，依照 A100和V100的性能换算，需要约3000个A100 GPU芯片。根据英伟达网站信息，NVIDIA DGX A100服务器搭载8块A100芯片，估算需要375台NVIDIA DGX A100 服务器，每台NVIDIA DGX A100服务器的价格为19.9万美元，则自建IDC的训练服务器的算力成本为7462.5万美元。若在云端训练，据Lambda Labs首席科学官Chuan li介绍，拥有1750亿个参数的GPT-3单次训练成本达到460万美元。