ChatGPT行业报告：ChatGPT等生成式AI的算力开销及商业化潜力（26页）

行业报告下载 2023年03月19日 08:41 管理员

ChatGPT 是 Open AI 公司发布的“语言模型”，该“模型”采用大规模的自然语言 (natural language model)算法，这个“模型”拥有和用户之间的交互界面，用户可以将问题提交给“模型”，然后“模型”做出回复，就好比是在和一个智能的机器人进行文字对话。 AI 应用分成分析型 AI 应用和生成式 AI 应用。其中，分析型 AI 应用已经被广泛使用，包括短视频推送、人脸识别、搜索分类、语音助手和等；生成式 AI 还并未被广泛应用，生成式 AI 的应用包括书写文字段落，生成图片，和生成代码等。 ChatGPT 是一种生成式 AI。ChatGPT 的工作原理可以简单的类比为，机器通过阅读人类说出前半句话是什么，然后预测人类想要得到的后半句话应该是什么，可以类比为诗词填空，出题人(即，人类)给出诗词的前半句，然后让答题者(即，机器)填写后半句。达成这个目标，需要用人类已经存在的语料信息、图片信息或代码信息等作为数据集，对模型进行训练，所以模型的认知边界将不断的趋近但无法超越人类自身的认知边界。简要的来说，GPT 模型的实现有 2 个关键环节：第一，需要先用大量的数据对 AI 模型进行预训练，得到预训练模型；第二，在这个基础上进行一些人为的标注，进行微调，提高其预测的准确度和可靠性。

比如，要生成一个可以正确地帮助人类规划旅行路线的模型，模型的开发人员会使用规模极大的数据集（包含酒店信息、旅行路线请求信息、地图信息、天气信息等）去进行模型的预训练，得到一个通用的预训练模型；然后在这个通用模型的基础上，使用外包的人工标注团队，开展人工标注，对一些细节进行标注，比如将已经停业的酒店标注出来，确保最终 ChatGPT 在规划旅行计划时不包括这些已经停业的酒店。根据 Open AI 发布的信息，ChatGPT 的训练流程具体包括 3 部分：1）收集“展示数据(Demonstration Data)”并训练出基于监督学习的决策策略；2）收集对比数据训练奖励模型；3）使用 PPO 强化学习算法针对奖励模型优化策略。ChatGPT 目前基于 GPT- 3 和 GPT-4 技术之间，GPT-3 于 2020 年发布，GPT-4 有望于 2023 年上半年发布。 ChatGPT 的开发者采用了监督学习(Supervised Learning)和强化学习(Reinforcement Learning)算法去微调（fine-tune）ChatGPT 模型；其中，开发者采用了具有人类反馈的强化学习算法(Reinforcement Learning from Human Feedback，RLHF)，最小化了模型所输出回答和真实情况的偏差度。从技术的起源来看，ChatGPT(全称：Chat Generative Pre-Trained transformer)，采用了生成式的预训练的“Transformer”模型，而 Transformer 模型于 2017 年由谷歌的研究人员在论文《Attention is all you need》中发布，这个模型促成了自然语言学习 (NLP)领域中 GPT 和 BERT 这 2 大模型的发展。这些年，在自然语言学习(NLP)领域， Transformer 模型逐步替代 RNN(循环神经网络)和 CNN(卷积神经网络)；比如，相比于 RNN 模型，Transformer 模型引入了自我注意力(Self-attention)机制，结合算法优化，可以实现并行运算，大量节约训练时间。