AI行业报告：深度学习算法发展（17页）

行业报告下载 2023年01月24日 07:52 管理员

相较感知机，多层感知机主要进行了如下改进： 1）解决了感知机的二元分类问题：引入隐藏层，并采用非线性激活函数 Sigmoid 代替阶跃函数，使得神经网络可以对非线性函数进行拟合。 2）可进行多元分类任务：多层感知机拓宽了输出层宽度。多层感知机的发展受到算力限制。由于多层感知机是全连接神经网络，所需算力随着神经元的增加呈几何增长。而在算力相对匮乏 20 世纪 80 年代，算力瓶颈阻碍了多层感知机的进一步发展。1986 年，Hinton 提出了一种适用于多层感知机训练的反向传播算法——BP 算法，至今仍是神经网络训练的主流算法。 BP 算法的核心思想为：将输出值与标记值进行比较，误差反向由输出层向输入层传播，在这个过程中利用梯度下降算法对神经元的权重进行调整。 BP 算法最大的问题在于梯度不稳定。由于当时 Sigmod、Tanh 作为非线性激活函数应用广泛，而这两种激活函数都存在一定范围内梯度过大或过小的问题。神经网络停留在浅层时，连乘次数少、梯度较为稳定；而当神经网络向深层迈进，梯度的不稳定性加剧，使得深层神经网络无法正常训练。

多层感知机的出现奠定了神经网络的基本结构，也使得神经网络的应用范围不再局限于图像识别，而是向自然语言处理、语音识别等其他领域拓展。由于各个领域的任务具有不同特点，神经网络产生了众多分支模型。这一阶段分支网络探索各自领域的任务特点，通过机制创新使神经网络获得对应的特征提取能力。 3.1 图像识别领域：“卷积”机制提取图像空间特征人类在进行图像识别时，能够从细小的特征推理得知事物的全貌，即“窥一斑而见全豹”。在多层感知机时代，由于二维图像被转化为一维向量后输入模型，因此丢失了图像的空间特征信息。为了使神经网络获得从特征到全局的图像识别能力，卷积神经网络应运而生。 1998 年，LeNet 卷积神经网络（CNN）首次应用于图像分类。CNN 通过多个卷积层对特征进行提取和压缩，得到较为可靠的高层次特征，最终输出的特征可应用于图像分类等任务。人类在进行文字阅读、语音识别时，不仅会关注当前看到、听到的词句，还会联系上下文进行辅助理解。在多层感知机时代，所有的输入彼此独立，模型仅针对当前词句进行训练，而不关注前后信息，造成了时序信息的丢失。为了使神经网络获得时序信息提取能力，1986 年循环神经网络（RNN）被提出，将循环思想引入神经网络。在 RNN 中，每个神经元既接受当前时刻输入信息、也接受上一时刻神经元的输出信息，使神经网络具备了时序特征提取能力。