大模型算力研究报告：全球AI算力需求继续向上（18页）

行业报告下载 2024年05月25日 07:24 管理员

Transformer 的出现开启了大模型演化之路。大语言模型（LLM）是在大量数据集上预训练的模型，且没有针对特定任务调整数据，其在处理各种 NLP（自然语言处理）任务方面显示出了较大潜力，如自然语言理解（NLU）、自然语言生成任务等。从 LLM 近年的发展情况来看，其路线主要分为三种：1）编码器路线；2）编解码器路线；3）解码器路线。从发展特点来看：1）解码器路线占据主导，归因于 2020 年 GPT-3 模型表现出的优异性能； 2）GPT 系列模型保持领先，或归因于 OpenAI 对其解码器技术道路的坚持；3）模型闭源逐渐成为头部玩家的发展趋势，这一趋势同样起源于 GPT-3 模型，而 Google 等公司也开始跟进；4）编解码器路线仍然在持续发展，但是在模型数量上少于解码器路线，或归因于其复杂的结构，导致其在工程实现上没有明显的优势。大模型或将向更大参数的方向不断演化。我们看到从 GPT-1 到 GPT-4 模型、从 PaLM 到 Gemini 模型，每一代模型的能力在不断强化，在各项测试中取得的成绩也越来越好。而模型背后的能力来源，我们认为参数和数据集是最重要的两个变量。从十亿规模，到百亿、千亿、万亿，模型参数量的增加类似人类神经突触数量的增加，带来模型感知能力、推理能力、记忆能力的不断提升。而数据集的增加，则类似人类学习知识的过程，不断强化模型对现实世界的理解能力。因此，我们认为下一代模型或仍将延续更大体量参数的路线，演化出更加智能的多模态能力。拆解来看，大模型的算力需求场景主要包括预训练、Finetune 及日常运营。从 ChatGPT 实际应用情况来看，从训练+推理的框架出发，我们可以将大模型的算力需求按场景进一步拆分为预训练、Finetune 及日常运营三个部分：1）预训练：主要通过大量无标注的纯文本数据，训练模型基础语言能力，得到类似 GPT-1/2/3 这样的基础大模型；2）Finetune：在完成预训练的大模型基础上，进行监督学习、强化学习、迁移学习等二次或多次训练，实现对模型参数量的优化调整；3）日常运营：基于用户输入信息，加载模型参数进行推理计算，并实现最终结果的反馈输出。