Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在计算机科学和人工智能领域,"Agent"...
2025-04-17 34 人工智能AI行业报告
首先,RNN 在 NLP 领域得到广泛应用的同时,其算法机制一直存在 着两个缺点,第一个缺点就是语言的长距离信息会被弱化。比如在这 样的长句子中:“原来是你把我的苹果拿走了,下次记得提前跟我说 一声,我还得用它来发邮件呢”,我们要确定“苹果”指代的是苹果电 脑/手机还是水果,就需要进行通过长距离的信息学习。由于在 RNN 模型中,对序列中的元素是按顺序处理的,比如在第一个 RNN 层中 的第二个节点 h2,它的计算是由第一个节点 h1,即词向量 1 输入模 型后得出的结算结果,以及词向量 2 的输入,二者共同决定的。在 RNN 模型中,两个词之间的交互距离可以认为是他们之间的相对距 离,因此第 1 个词和第 n 个词之间的交互距离是 n-1,因此如果一个 序列足够长,RNN 模型中的节点经过许多阶段的计算后,之前比较长 的时间片的特征已经被覆盖,很难将将信息从较早的时间步传送到后 面的时间步,距离越远的信息越容易被忽略掉。虽然在实际情况下, 大多数词的词义在一个较小范围的上下文语义环境中就可以确定,对 于一个更好的语言模型而言,我们的期望是模型能够更好的获取长距 离的信息。 RNN的第二个缺点就是RNN是串行处理机制所带来的计算效率低的 问题。
从 RNN 实现的原理来讲,是因为每个时间步(time step)的 计算,都依赖于对前一时间步的计算和输出结果,难以进行并行化运 算进行加速。并且在长句中的每个时间步都包括一个 memory I/O 操 作,这导致了模型的性能严重受限于 GPU 的最大线程和最大内存带 宽的约束。特别是在处理长句的训练样本时,RNN 存在的模型运行速 度慢的问题会体现的更加明显,因此导致了语言模型中能够堆叠 RNN 的数量受到了明显的限制。为了应对 RNN 模型存在的缺陷,一般会使用双向的 RNN 及 LSTM 长时间的短期记忆网络(Long Short-Term Memory Networks),比 传统 RNN 在长距离信息识别方面有更好的表现。双向 RNN 结构作为 RNN 的变体,在使用一个 RNN 对序列中的元素从左往右进行处理的 同时,另一个 RNN 对序列从右向左进行处理,因此能够在一定程度 上优化对长距离信息的处理,可以考虑整个句子的信息,然而双向 RNN 的缺点在于需要完整数据的序列,比如语音识别系统中,必须等 待一个人说完整句话,才能做出识别,这样就有一个比较长的等待时 间。而 LSTM 作为一种带有门控(Gate)机制的 RNN 模型,是一种 让信息选择式通过的方法,门控可以只保留有效信息来进行预测,并 忘记不相关的数据。因此能够记住重要的信息,而忽略无关紧要的信 息。LSTM 虽然理论上可以对历史信息进行有选择的存储和遗忘,但 是门控参数量一定的情况下,这种能力是一定的。随着句子的增长, 相对距离的增大,存在明显的理论上限。
标签: 人工智能AI行业报告
相关文章
Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在计算机科学和人工智能领域,"Agent"...
2025-04-17 34 人工智能AI行业报告
[Download]资源名称:DeepSeek深度解读报告:部署、使用、安全(49页)...
2025-04-15 51 人工智能AI行业报告
DeepSeek V3与R1模型实现了开源,采用MIT协议。这产生多方面影响: 对大模型发展:这提升了世界对中国AI大模型能力的认知,一定程度打破了O...
2025-04-14 50 人工智能AI行业报告
DeepSeek 团队最大的特点之一就是年轻。团队成员中, 应届生和在读生占据了相当大的比例,他们活跃在公司的各 个项目和研究领域中。这些年轻人思维敏...
2025-04-14 66 人工智能AI行业报告
DeepSeek引领AI应用变革,“AI+消费”有望迎来大爆发。DeepSeek首次实现了大规模AI模型性能与成本之间的“剪刀差式突破”,显著 降低了...
2025-04-13 54 人工智能AI行业报告
DeepSeek 是一家中国人工智能公司,成立于 2023 年 7 月 17 日,总部位于浙江 杭州。它由量化资管巨头幻方量化创立,专注于大语言模型(...
2025-04-10 61 人工智能AI行业报告
最新留言