大型语言模型是生成或嵌入式文本的基础模型 (一种大型神经网络)。它们生成的文本可以通过为其 提供起点或“提示”来进行调节,从而使其能够用自然 语言或代...
2025-01-17 59 人工智能AI行业报告
首先,RNN 在 NLP 领域得到广泛应用的同时,其算法机制一直存在 着两个缺点,第一个缺点就是语言的长距离信息会被弱化。比如在这 样的长句子中:“原来是你把我的苹果拿走了,下次记得提前跟我说 一声,我还得用它来发邮件呢”,我们要确定“苹果”指代的是苹果电 脑/手机还是水果,就需要进行通过长距离的信息学习。由于在 RNN 模型中,对序列中的元素是按顺序处理的,比如在第一个 RNN 层中 的第二个节点 h2,它的计算是由第一个节点 h1,即词向量 1 输入模 型后得出的结算结果,以及词向量 2 的输入,二者共同决定的。在 RNN 模型中,两个词之间的交互距离可以认为是他们之间的相对距 离,因此第 1 个词和第 n 个词之间的交互距离是 n-1,因此如果一个 序列足够长,RNN 模型中的节点经过许多阶段的计算后,之前比较长 的时间片的特征已经被覆盖,很难将将信息从较早的时间步传送到后 面的时间步,距离越远的信息越容易被忽略掉。虽然在实际情况下, 大多数词的词义在一个较小范围的上下文语义环境中就可以确定,对 于一个更好的语言模型而言,我们的期望是模型能够更好的获取长距 离的信息。 RNN的第二个缺点就是RNN是串行处理机制所带来的计算效率低的 问题。
从 RNN 实现的原理来讲,是因为每个时间步(time step)的 计算,都依赖于对前一时间步的计算和输出结果,难以进行并行化运 算进行加速。并且在长句中的每个时间步都包括一个 memory I/O 操 作,这导致了模型的性能严重受限于 GPU 的最大线程和最大内存带 宽的约束。特别是在处理长句的训练样本时,RNN 存在的模型运行速 度慢的问题会体现的更加明显,因此导致了语言模型中能够堆叠 RNN 的数量受到了明显的限制。为了应对 RNN 模型存在的缺陷,一般会使用双向的 RNN 及 LSTM 长时间的短期记忆网络(Long Short-Term Memory Networks),比 传统 RNN 在长距离信息识别方面有更好的表现。双向 RNN 结构作为 RNN 的变体,在使用一个 RNN 对序列中的元素从左往右进行处理的 同时,另一个 RNN 对序列从右向左进行处理,因此能够在一定程度 上优化对长距离信息的处理,可以考虑整个句子的信息,然而双向 RNN 的缺点在于需要完整数据的序列,比如语音识别系统中,必须等 待一个人说完整句话,才能做出识别,这样就有一个比较长的等待时 间。而 LSTM 作为一种带有门控(Gate)机制的 RNN 模型,是一种 让信息选择式通过的方法,门控可以只保留有效信息来进行预测,并 忘记不相关的数据。因此能够记住重要的信息,而忽略无关紧要的信 息。LSTM 虽然理论上可以对历史信息进行有选择的存储和遗忘,但 是门控参数量一定的情况下,这种能力是一定的。随着句子的增长, 相对距离的增大,存在明显的理论上限。
标签: 人工智能AI行业报告
相关文章
大型语言模型是生成或嵌入式文本的基础模型 (一种大型神经网络)。它们生成的文本可以通过为其 提供起点或“提示”来进行调节,从而使其能够用自然 语言或代...
2025-01-17 59 人工智能AI行业报告
大模型快速发展,网信办数据显示,截至2024年7月30日,全国范围内通过登记备案的行业大模型有136款,占比达69%。行业大 模型深度赋能教育、金融、...
2025-01-08 76 人工智能AI行业报告
生成式AI也在加速赋能广告制作环节。今年业绩和股价爆发的AppLovin和汇量科技,主要关注的是决策式 AI在程序化广告平台的技术突破,提升广告投放精...
2025-01-06 105 人工智能AI行业报告
纵观历史50年,五次半导体市场规模迅猛成长均伴随爆款电子产品的普及。自1976年起,全球半导体市场历经了5次迅猛成长,分别由台式电脑(1983~198...
2025-01-05 89 人工智能AI行业报告
先进封装:受AI芯片大面积需求带动,2.5D先进封装于2023至2024年供不应 求情况明显,据TrendForce预估,2025年晶圆代工厂配套提供...
2025-01-05 97 人工智能AI行业报告
针对外贸 B2B 垂类场景的AI助手AI麦可:截至2024/6/30,购买AI麦可的会员共6095 位(不含试用体验包客户),较2024年一季度末增加...
2025-01-04 67 人工智能AI行业报告
最新留言