GPT产业复盘报告（18页）

行业报告下载 2023年03月09日 07:07 管理员

Transformer 模型是 GPT 模型的基础。2017 年 6 月，Google Brain 在神经信息处理系统大会（NeurIPS）发表论文“Attention is all you need”，首次提出了基于自我注意力机制（self-attention）来提高训练速度的 Transformer 模型，将其用于自然语言处理。此前，自然语言处理领域的主流模型是循环神经网络（RNN，recurrent neural network）。RNN 能更好地处理有先后顺序的数据，但在处理较长序列时存在模型不稳定、过早停止有效训练、训练时间过长等问题。而 Transformer 模型能够同时并行进行数据计算和模型训练，训练时长更短，且训练得出的模型具有可解释性。 Transformer 是一种基于注意力机制的编码器-解码器（Encoder-Decoder）模型。 Transformer 模型的核心思想是使用多头注意力机制，实现不同位置之间的跨越关系计算。 Transformer 模型可以完全并行化，不需要递归或循环，也不需要在训练过程中预测序列的长度，因此可以大大加快训练速度。Transformer 模型中的编解码器各有 6 个相同的堆栈组成。

其中，Encoder 由两层组成，一层是多头自我注意机制，另一层为前馈网络。Decoder 除了自我注意机制和前馈网络外，还插入了第三个子层，实现对编码器堆栈输出的多头关注。Google Brain 团队使用了多种公开的语言数据集来训练 Transformer 模型，共设置 6500 万个可调参数，模型在翻译准确度、英语成分句法分析等各项评分上达到了当时的业内最好水平，成为当时最先进的大型语言模型（Large Language Model，LLM），常用于输入法和机器翻译。Transformer 模型解决了人工标注繁和训练速度慢的问题。通常训练深度学习模型，必须使用大规模人工标记的数据集合，成本极高。Transformer 模型采用 Mask 机制，通过遮挡已有句段中的部分内容，训练 AI 进行填空，不仅省去了人工标注成本，而且可以利用互联网上大量的文章、网页等信息作为训练资源。此外，Transformer 模型的多头注意力机制，能够实现并行计算，在硬件资源足够多的情况下，能够不断提高计算速度。

GPT产业复盘报告（18页）