GPT产业复盘报告（21页）

行业报告下载 2023年03月15日 07:38 管理员

大训练参数能明显提高 GPT-3 模型准确性。从上下文学习能力训练结果准确率来看，对于 GPT-3 模型，当模型参数量较低时，模型准确率较低，例如参数量 1.3B 的模型准确率不超过 10%。当模型参数提升 10 倍至 13B 时，最高准确率接近 30%。当模型参数达到最大 175B 时，准确率最高接近 70%，进一步验证了 GPT-2 大容量路线的正确性。GPT-3 和 GPT2 采用几乎同样的架构。GPT-3 和 GPT-2 模型和架构基本相同，包括修改后的初始化、预归一化和可逆标记化，唯一区别在于将 transformer 中注意力模式替换成了类似 Sparse Transformer 的稀疏注意力模式。Few-shot 取代 zero-shot，训练效果得到进一步加强。GPT-2 模型中，在下游训练时采用 zero-shot 学习理念，在执行各类子任务时不给任何样例，属于较为极端的情况。虽然在 GPT-2 在某些测试中取得了不错的效果，但在一些任务上结果不达预期。

因此，OpenAI 引入了 few-shot，即对于特定任务仅给予少量的样例（10-100 个），没有任何梯度更新或微调，任务和 few-shot 示例均通过与模型的文本交互指定。从多种训练基准综合训练结果来看，few-shot 能够取得比 zero-shot 更好的准确度。GPT-3 训练数据集为多种数据集的混合。数据集以 Common Crawl 为基础，其大小为 45TB。但 Common Crawl 数据集的质量低于更精确的数据集，为了保证数据集质量，一方面对 Common Crawl 进行过滤，大小压缩到 570GB，另一方面增加了质量更高的数据集，如 WebText2、Wikipedia 等。在训练期间，数据集的采样并不与其大小成比例，而是质量更高的数据集采样频率更高，因此 CommonCrawl 和 Books2 数据集在训练期间采样次数少于一次，其他更高质量的数据集采样次数为 2-3 次，以换取更高质量的训练数据。比较来看，GPT-1和GPT-2的训练书籍及大小分别为5GB和40GB，GPT-3数据集大小超GPT-210 倍以上。

GPT产业复盘报告（21页）