ChatGPT行业报告（20页）

行业报告下载 2023年03月06日 06:22 管理员

ChatGPT 采用监督学习+奖励模型进行语言模型训练。ChatGPT 使用来自人类反馈的强化学习 (RLHF) 来训练该模型。首先使用监督微调训练了一个初始模型：人类 AI 训练员提供对话，他们在对话中扮演双方——用户和 AI 助手。其次，ChatGPT 让标记者可以访问模型编写的建议，以帮助他们撰写回复。最后，ChatGPT 将这个新的对话数据集与原有数据集混合，将其转换为对话格式。具体来看，主要包括三个步骤： 1）第一阶段：训练监督策略模型。在 ChatGPT 模型的训练过程中，需要标记者的参与监督过程。首先，ChatGPT 会从问题数据集中随机抽取若干问题并向模型解释强化学习机制，其次标记者通过给予特定奖励或惩罚引导 AI 行为，最后通过监督学习将这一条数据用于微调 GPT3.5 模型。

第二阶段：训练奖励模型。这一阶段的主要目标，在于借助标记者的人工标注，训练出合意的奖励模型，为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步：1、抽样出一个问题及其对应的几个模型输出结果；2、标记员将这几个结果按质量排序；3、将排序后的这套数据结果用于训练奖励模型。 3）第三阶段：采用近端策略优化进行强化学习。近端策略优化（Proximal Policy Optimization）是一种强化学习算法，核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为 Off-policy，即将在线学习转化为离线学习。具体来说，也就是先通过监督学习策略生成 PPO 模型，经过奖励机制反馈最优结果后，再将结果用于优化和迭代原有的 PPO 模型参数。往复多次第二阶段和第三阶段，从而得到参数质量越来越高的 ChatGPT 模型。

ChatGPT行业报告（20页）