首页 行业报告下载文章正文

GPT产业复盘报告(18页)

行业报告下载 2023年03月09日 07:07 管理员

Transformer 模型是 GPT 模型的基础。2017 年 6 月,Google Brain 在神经信息处理系统 大会(NeurIPS)发表论文“Attention is all you need”,首次提出了基于自我注意力机制 (self-attention)来提高训练速度的 Transformer 模型,将其用于自然语言处理。此前,自 然语言处理领域的主流模型是循环神经网络(RNN,recurrent neural network)。RNN 能更 好地处理有先后顺序的数据,但在处理较长序列时存在模型不稳定、过早停止有效训练、 训练时间过长等问题。而 Transformer 模型能够同时并行进行数据计算和模型训练,训练时 长更短,且训练得出的模型具有可解释性。 Transformer 是一种基于注意力机制的编码器-解码器(Encoder-Decoder)模型。 Transformer 模型的核心思想是使用多头注意力机制,实现不同位置之间的跨越关系计算。 Transformer 模型可以完全并行化,不需要递归或循环,也不需要在训练过程中预测序列的 长度,因此可以大大加快训练速度。Transformer 模型中的编解码器各有 6 个相同的堆栈组 成。

其中,Encoder 由两层组成,一层是多头自我注意机制,另一层为前馈网络。Decoder 除了自我注意机制和前馈网络外,还插入了第三个子层,实现对编码器堆栈输出的多头关 注。Google Brain 团队使用了多种公开的语言数据集来训练 Transformer 模型,共设置 6500 万个可调参数,模型在翻译准确度、英语成分句法分析等各项评分上达到了当时的业内最 好水平,成为当时最先进的大型语言模型(Large Language Model,LLM),常用于输入法 和机器翻译。Transformer 模型解决了人工标注繁和训练速度慢的问题。通常训练深度学习模型,必须 使用大规模人工标记的数据集合,成本极高。Transformer 模型采用 Mask 机制,通过遮挡 已有句段中的部分内容,训练 AI 进行填空,不仅省去了人工标注成本,而且可以利用互联 网上大量的文章、网页等信息作为训练资源。此外,Transformer 模型的多头注意力机制, 能够实现并行计算,在硬件资源足够多的情况下,能够不断提高计算速度。

GPT产业复盘报告(18页)

文件下载
资源名称:GPT产业复盘报告(18页)


标签: 人工智能AI行业报告

并购家 关于我们   意见反馈   免责声明 网站地图 京ICP备12009579号-9

分享

复制链接

ipoipocn@163.com

发送邮件
电子邮件为本站唯一联系方式