结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 30 人工智能AI行业报告
首先,RNN 在 NLP 领域得到广泛应用的同时,其算法机制一直存在 着两个缺点,第一个缺点就是语言的长距离信息会被弱化。比如在这 样的长句子中:“原来是你把我的苹果拿走了,下次记得提前跟我说 一声,我还得用它来发邮件呢”,我们要确定“苹果”指代的是苹果电 脑/手机还是水果,就需要进行通过长距离的信息学习。由于在 RNN 模型中,对序列中的元素是按顺序处理的,比如在第一个 RNN 层中 的第二个节点 h2,它的计算是由第一个节点 h1,即词向量 1 输入模 型后得出的结算结果,以及词向量 2 的输入,二者共同决定的。在 RNN 模型中,两个词之间的交互距离可以认为是他们之间的相对距 离,因此第 1 个词和第 n 个词之间的交互距离是 n-1,因此如果一个 序列足够长,RNN 模型中的节点经过许多阶段的计算后,之前比较长 的时间片的特征已经被覆盖,很难将将信息从较早的时间步传送到后 面的时间步,距离越远的信息越容易被忽略掉。虽然在实际情况下, 大多数词的词义在一个较小范围的上下文语义环境中就可以确定,对 于一个更好的语言模型而言,我们的期望是模型能够更好的获取长距 离的信息。 RNN的第二个缺点就是RNN是串行处理机制所带来的计算效率低的 问题。
从 RNN 实现的原理来讲,是因为每个时间步(time step)的 计算,都依赖于对前一时间步的计算和输出结果,难以进行并行化运 算进行加速。并且在长句中的每个时间步都包括一个 memory I/O 操 作,这导致了模型的性能严重受限于 GPU 的最大线程和最大内存带 宽的约束。特别是在处理长句的训练样本时,RNN 存在的模型运行速 度慢的问题会体现的更加明显,因此导致了语言模型中能够堆叠 RNN 的数量受到了明显的限制。为了应对 RNN 模型存在的缺陷,一般会使用双向的 RNN 及 LSTM 长时间的短期记忆网络(Long Short-Term Memory Networks),比 传统 RNN 在长距离信息识别方面有更好的表现。双向 RNN 结构作为 RNN 的变体,在使用一个 RNN 对序列中的元素从左往右进行处理的 同时,另一个 RNN 对序列从右向左进行处理,因此能够在一定程度 上优化对长距离信息的处理,可以考虑整个句子的信息,然而双向 RNN 的缺点在于需要完整数据的序列,比如语音识别系统中,必须等 待一个人说完整句话,才能做出识别,这样就有一个比较长的等待时 间。而 LSTM 作为一种带有门控(Gate)机制的 RNN 模型,是一种 让信息选择式通过的方法,门控可以只保留有效信息来进行预测,并 忘记不相关的数据。因此能够记住重要的信息,而忽略无关紧要的信 息。LSTM 虽然理论上可以对历史信息进行有选择的存储和遗忘,但 是门控参数量一定的情况下,这种能力是一定的。随着句子的增长, 相对距离的增大,存在明显的理论上限。
标签: 人工智能AI行业报告
相关文章
结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 30 人工智能AI行业报告
大模型商业生态推动端侧场景落地。过去 ChatGPT 引领了全球 AI 产业,国 内外公司纷纷布局 AI 赛道。国内多家厂商探索商业化路径,在激烈竞争...
2025-03-25 39 人工智能AI行业报告
根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个token上训练 DeepSeek-V3只需要1...
2025-03-24 73 人工智能AI行业报告
大模型军备竞赛,编程能力跃进,为 AI 编码应用繁荣夯实基础底座。Claude 3.5 sonnet (new 在 HumanEval 代...
2025-03-24 46 人工智能AI行业报告
在计算架构层面,大模型的训练和应用通常需要处理大规模的数据集,这将增加对于高带宽的需求,以执行数据 并行、流水线并行及张量并行等策略。为了满足大模型对...
2025-03-21 36 人工智能AI行业报告
AI 编程:重构代码编写的范式。AI 编程已经成为 AI 发展的一个重要的细分 领域,正在逐步赋能编程工作的各个方面,包括代码自动补全、代码生成、测试...
2025-03-21 30 人工智能AI行业报告
最新留言