聊天机器人行业报告：顶流ChatGPT，自然语言处理（10页）

行业报告下载 2023年01月10日 06:25 管理员

在现存大量语言模型中，GPT 3 的规模和语言能力几乎是最强大的。它能在不做 finetuning 的情况下，在一些传统的 NLP 任务中表现得更好，包括实现闭卷问答、模式解析、纯语言建模、机器翻译等；在新的领域， GPT 3 将 NLP 的应用扩展到缺乏足够训练数据的领域，例如在开发程序代码、文章生成和信息检索领域取得了实质性的进展。此外，在 UI 设计、图像生成和艺术创作等领域， GPT 3 的功能也更加强大，可以不经过微调就补全图像样本、或者实现简单的视图交互设计，将应用领域从语言处理领域逐渐拓宽。实现了从语言到图像的转向。然而，GPT 3 在推理和理解能力上还有较长的路要走。在自然语言推理（ NLI ）中重点关注句子之间的关系，由于 GPT 3 的阅读理解性能存在一定缺陷，在 NLI 任务中表现不佳；类似的，在物理、科学的常识推理技能表现中也存在一定问题。4.InstructGPT和 hatGPT ：更好地遵循用户意图、更少的虚假信息相较于GPT 3 OpenAI 在 2022 年初发布了 InstructGPT 。

该语言模型在 GPT 3 的基础上进行微调，并在工作原理上增加了对齐研究，强化 InstructGPT 模型的语义理解；同时，通过“基于人类反馈的强化学习 RLHF ）和监督学习”来提高输出质量。具体地，开发人员可以将训练划分为三个阶段：第一阶段：冷启动阶段的策略模型。随机抽取用户提交的指令或问题，即 prompt ，并进行专业的人工标注，用这些指定的 prompt 和高质量答案共同微调 GPT 3.5 模型，使之初步具备理解输入指令或问题的能力。第二阶段：训练回报模型Reward Model,RM ）。在第一阶段生成的众多结果中，根据结果质量由人工标注排序并作为训练数据，通过监督学习中的匹配排序（ pair wise learningto rank ）训练回报模型对语言模型预训练的输出结果评分，回答质量越高，分数越高。第三阶段：采用强化学习来增强预训练模型的能力。利用第二阶段学好的 RM 模型更新预训练模型的参数，不断从 prompt 库中抽取新命令，通过 PPO Proximal Policy Optimization算法生成回答后，循环执行第一到三阶段进行强化训练，最终鼓励 LLM 模型能够输出更高质量的回答。