GPT产业梳理报告：GPT-1到ChatGPT（17页）

行业报告下载 2023年03月09日 07:11 管理员

GPT-2 在多个下游任务中表现出色。例如，在 8 种语言模型任务中，仅通过 zero-shot 学习， GPT-2 在 7 种任务中超过了最优水平；在儿童图书测试的命名实体识别任务中，超过最优水平 7%；在文本长期依赖性建模能力测试数据集 LAMBADA 上，GPT-2 将困惑度从 99.8 降到了 8.6；在阅读理解任务中，GPT-2 超过了 3 个基线模型；在法译英任务中，GPT-2 在 zero-shot 学习的基础上，超过了大多数的无监督方法，略逊于有监督的方法；在文本总结任务中的效果接近有监督的模型。 OpenAI：得到微软注资，关注技术滥用问题微软向 OpenAI 投资 10 亿美元，并提供独家云支持。2019 年 7 月，微软向 OpenAI 投资 10 亿美元，帮助 OpenAI 构建人工通用智能（AGI）。此外，微软作为 OpenAI 的独家云提供商，与 OpenAI 合作开发 Microsoft Azure 中的软硬件平台并考虑将其扩展到 AGI，以及共同开发新的 Azure AI 超级计算技术。 OpenAI 出于对技术滥用问题的考虑，分阶段发布 GPT-2 完整版。

OpenAI 出于对技术滥用问题的考虑，在 GPT-2 诞生后并未发布完整版的训练模型。2019 年 2 月，OpenAI 发布了 124M 参数的小型 GPT-2 模型，5 月发布 355M 参数的中型 GPT-2 模型，8 月发布 7.74 亿参数的 GPT-2 模型。直到 2019 年 11 月，作为 GPT-2 分阶段发布的最终模型版本，OpenAI 发布了 15 亿参数 GPT-2，以及代码和模型权重。在此过程中，OpenAI 还使用各种任务的人类反馈对 774M 参数 GPT-2 语言模型进行了微调，提高了模型在部分任务上的表现。Few-shot 取代 zero-shot，训练效果得到进一步加强。GPT-2 模型中，在下游训练时采用 zero-shot 理念，在执行各类子任务时不给任何样例，属于较为极端的情况。虽然在 GPT-2 在某些测试中取得了不错的效果，但在一些任务上结果不达预期。因此，OpenAI 引入了 few-shot，即对于特定任务仅给予少量的样例（10-100 个），和 GPT-2 一样不做微调处理，仅通过与模型的文本交互来指定任务和 few-shot。从多种训练基准训练结果看，few-shot 能够取得比 zero-shot 更好的准确度结果。