ChatGPT跨行业报告：AIGC发展大年（42页）

行业报告下载 2023年03月07日 07:27 管理员

AI 模型最初是针对特定应用场景需求进行训练（即小模型）。小模型的通用性差，换到另一个应用场景中可能并不适用，需要重新训练，这牵涉到很多调参、调优的工作及成本。同时，由于模型训练需要大规模的标注数据，在某些应用场景的数据量少，训练出来的模型精度不理想的情况，这使得 AI 研发成本高，效率低的情况。过去 5 年，随着数据，算力及算法的提升，AI 技术也有了变化，从过去的小模型到大模型的兴起。大模型（也称为基础模型 Foundation Models）是在大规模无标注数据上进行训练，学习出特征和规则。大模型泛化能力强，美国 OpenAI, 谷歌，微软，Facebook 的机构过去几年发布了千亿或万亿参数量的大模型，这些大模型主要是在自然语言领域（NLP），包括 ChatGPT 背后的 GPT-3，Switch Transformer，BERT 等。基于大模型进行应用开发，将大模型进行微调（在下游特定任务上的小规模有标注数据进行二次训练），或者不进行微调，可以完成多个应用场景的任务。这有效降低 AI 应用研发门槛，也能解决在应用场景数据量少，模型精度低的问题。在图 8 ，我们列出了过去 5 年中美主要大模型及其参数量的规模，在发布时间的差距上，我们可以看到中国的大模型是集中在 2021 年到 2022 年之间，而美国同等参数量级的模型比中国领先 1-2 年。另外，我们看到模型的规模也呈现指数级扩张。

但需要注意的是，模型的参数规模不一定是越大越好，大模型的可解析性和可控性比较薄弱，复杂的模型使他们比普通的神经网络更难以理解，在检测和减轻这些 blackbox 模型的偏差会变得更加困难。自然语言处理（NLP）主要通过学习通用语言，使得模型具备语言理解和生成能力。在 AI 的感知层（识别能力），目前机器在语音识别（Speech Recognition）的水平基本达到甚至超过了人类的水平。然而，机器在处理自然语言时还是非常困难，主要是因为自然语言具有高度的抽象性，语义组合性，理解语言需要背景知识和推理能力。在 2018 年以来，以 BERT 和 GPT 为代表的语言大模型，弥补了自然语言处理标注数据的缺点，促进了 NLP 技术的发展。从技术的角度，这些大模型的训练，透过事先遮住一些文本片段，让 AI 模型通过自监督学习，通过海量语料库的预训练，逐步掌握上下文语境，把这些被遮住的片段，尽可能合乎逻辑的方式填上去。现阶段只有微软和谷歌正式发布了基于 NLP 大模型的可交互式应用，暂时没有办法评判每家公司大模型在实际产品中的表现。我们尝试比对国内及国外比较领先的 AI 公司在 NLP领域的专利数，根据 WIPO 国际专利分类，我们参考了 G06F17/20 项（Handling natural language data），国内比较领先的是互联网企业，前三分别是腾讯，百度和阿里巴巴（专利数在 600 个以上），而专注于语音方面的 AI 企业科大讯飞只有 100 多个专利。国内 AI 企业和国际巨头相比，在 NLP 领域的专利数量差距还是比较明显，像微软及谷歌等，他们在 NLP 的专利数已经在几千个的量级。