首页 行业报告下载文章正文

ChatGPT行业报告(20页)

行业报告下载 2023年03月06日 06:22 管理员

ChatGPT 采用监督学习+奖励模型进行语言模型训练。ChatGPT 使用来自人类反馈的强化 学习 (RLHF) 来训练该模型。首先使用监督微调训练了一个初始模型:人类 AI 训练员提 供对话,他们在对话中扮演双方——用户和 AI 助手。其次,ChatGPT 让标记者可以访问 模型编写的建议,以帮助他们撰写回复。最后,ChatGPT 将这个新的对话数据集与原有数 据集混合,将其转换为对话格式。具体来看,主要包括三个步骤: 1)第一阶段:训练监督策略模型。在 ChatGPT 模型的训练过程中,需要标记者的参与监 督过程。首先,ChatGPT 会从问题数据集中随机抽取若干问题并向模型解释强化学习机制, 其次标记者通过给予特定奖励或惩罚引导 AI 行为,最后通过监督学习将这一条数据用于微 调 GPT3.5 模型。 

第二阶段:训练奖励模型。这一阶段的主要目标,在于借助标记者的人工标注,训练出 合意的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:1、 抽样出一个问题及其对应的几个模型输出结果;2、标记员将这几个结果按质量排序;3、 将排序后的这套数据结果用于训练奖励模型。 3)第三阶段:采用近端策略优化进行强化学习。近端策略优化(Proximal Policy Optimization) 是一种强化学习算法,核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为 Off-policy,即将在线学习转化为离线学习。具体来说,也就是先通过监督学习策略生成 PPO 模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代原有的 PPO 模型参数。往 复多次第二阶段和第三阶段,从而得到参数质量越来越高的 ChatGPT 模型。

ChatGPT行业报告(20页)

文件下载
资源名称:ChatGPT行业报告(20页)


标签: 人工智能AI行业报告

并购家 关于我们   意见反馈   免责声明 网站地图 京ICP备12009579号-9

分享

复制链接

ipoipocn@163.com

发送邮件
电子邮件为本站唯一联系方式