AIGC全方位解析与投资展望报告（53页）

行业报告下载 2023年05月29日 07:28 管理员

人类反馈强化学习（RLHF）微调：由于网络数据来源千差万别，存在一个提示将会对应许多“正确答案”的问题，因此 InstructGPT引入人工微调手段 RLHF进一步解决语言模型生成答案不符合人类预期的问题，RLHF 利用人类与 API 互动的真实反馈，对输出内容进行排序标注，以生成多样性和安全性兼顾的内容。 Open AI 的 InstructGPT、ChatGPT，DeepMind 的 Sparrow，Anthropic 的 Constitutional AI 均采用 RLHF 对模型进行微调。引入 RLHF 后 InstructGPT 生成真实且信息量大的答案的频率是 GPT-3 的两倍，输出中不存在的信息的频率大约是 GPT-3 的二分之一，输出有害信息也较 GPT-3 有所改善，RLHF 使在网络数据语料库中训练的语言模型能与复杂的人类价值观对齐，输出内容更为精准与专业。ChatGPT 沿用了 InstructGPT 的指示学习 (Instruction Learning)和人工微调手段 RLHF 来指导模型训练，使其适应对话的场景，能够生成更自然、流畅、有趣和有用的回复。因此，ChatGPT 在与人类交流时比其他语言模型更出色。高性能芯片为算力关键一环。

在 AI 机器学习“训练”环节和“云端”应用场景中需要大规模的并行运算，而 GPU 算力佳且擅长并行计算的特点使其成为 AI芯片的扛鼎者，占据了大部分 AI 芯片的市场份额。AI 训练和推理芯片主要包括 GPU、 FPGA、ASIC，其中训练芯片由于在 AI 训练环节需要具备高内在并行度、巨量浮点计算以及矩阵运算，因此训练芯片对算力性能要求较高，高端 GPU 占据训练芯片的绝大部分份额。应用场景方面，AI 芯片又分为云端、边缘、终端三种。在云端应用场景中，AI 在处理海量数据的同时也要提供训练和推理的工作，因此对于 AI 芯片的算力提出最高要求，具有高性能且能批量处理密集任务的 GPU 脱颖而出，成为构建云端服务器的主要芯片。数据是训练和迭代 AIGC 模型的核心要素。例如 ChatGPT，其用于 GPT-3的训练集为集合近一万亿单词的 Common Crawl 数据集（2283 亿 token）、WebText 2、 Books1 数据集（120 亿 token）、Books2 数据集（550 亿 token）、Wikipedia（30 亿 token）、Reddit 链接、Stack Exchange 技术问答社区、Github 代码、ArXiv 论文、RealNew 新闻存档、PubMed 医疗数据等等，并进行人工轻度过滤，通过将较高质量的数据集更频繁的采样、重复与模糊的数据删除、将已知的高质量参考语料库添加进训练组合中，促使 ChatGPT 的输出精准性大幅提升。