解析ChatGPT背后的技术演进研究报告（39页）

行业报告下载 2023年04月26日 07:38 管理员

首先，RNN 在 NLP 领域得到广泛应用的同时，其算法机制一直存在着两个缺点，第一个缺点就是语言的长距离信息会被弱化。比如在这样的长句子中：“原来是你把我的苹果拿走了，下次记得提前跟我说一声，我还得用它来发邮件呢”，我们要确定“苹果”指代的是苹果电脑/手机还是水果，就需要进行通过长距离的信息学习。由于在 RNN 模型中，对序列中的元素是按顺序处理的，比如在第一个 RNN 层中的第二个节点 h2，它的计算是由第一个节点 h1，即词向量 1 输入模型后得出的结算结果，以及词向量 2 的输入，二者共同决定的。在 RNN 模型中，两个词之间的交互距离可以认为是他们之间的相对距离，因此第 1 个词和第 n 个词之间的交互距离是 n-1，因此如果一个序列足够长，RNN 模型中的节点经过许多阶段的计算后，之前比较长的时间片的特征已经被覆盖，很难将将信息从较早的时间步传送到后面的时间步，距离越远的信息越容易被忽略掉。虽然在实际情况下，大多数词的词义在一个较小范围的上下文语义环境中就可以确定，对于一个更好的语言模型而言，我们的期望是模型能够更好的获取长距离的信息。 RNN的第二个缺点就是RNN是串行处理机制所带来的计算效率低的问题。

从 RNN 实现的原理来讲，是因为每个时间步（time step）的计算，都依赖于对前一时间步的计算和输出结果，难以进行并行化运算进行加速。并且在长句中的每个时间步都包括一个 memory I/O 操作，这导致了模型的性能严重受限于 GPU 的最大线程和最大内存带宽的约束。特别是在处理长句的训练样本时，RNN 存在的模型运行速度慢的问题会体现的更加明显，因此导致了语言模型中能够堆叠 RNN 的数量受到了明显的限制。为了应对 RNN 模型存在的缺陷，一般会使用双向的 RNN 及 LSTM 长时间的短期记忆网络（Long Short-Term Memory Networks），比传统 RNN 在长距离信息识别方面有更好的表现。双向 RNN 结构作为 RNN 的变体，在使用一个 RNN 对序列中的元素从左往右进行处理的同时，另一个 RNN 对序列从右向左进行处理，因此能够在一定程度上优化对长距离信息的处理，可以考虑整个句子的信息，然而双向 RNN 的缺点在于需要完整数据的序列，比如语音识别系统中，必须等待一个人说完整句话，才能做出识别，这样就有一个比较长的等待时间。而 LSTM 作为一种带有门控（Gate）机制的 RNN 模型，是一种让信息选择式通过的方法，门控可以只保留有效信息来进行预测，并忘记不相关的数据。因此能够记住重要的信息，而忽略无关紧要的信息。LSTM 虽然理论上可以对历史信息进行有选择的存储和遗忘，但是门控参数量一定的情况下，这种能力是一定的。随着句子的增长，相对距离的增大，存在明显的理论上限。