AI技术研究报告：大模型时代，AI技术向效率提升演进（12页）

行业报告下载 2023年03月28日 06:29 管理员

在计算机视觉领域，无监督学习技术发展相对较慢。2020 年，基于对比学习思想的 MoCo 问世，证明了无监督学习在计算机视觉领域能取得不亚于监督学习的效果。在此之后，基于对比学习的无监督学习方法不断演进，朝着结构更简单、对数据样本要求更低、更容易应用的方向发展，准确度也不断提升。2021 年，Facebook AI（现 Mata AI）的何恺明等提出了 MAE 方法，该方法的核心思想与自然语言处理领域中的 MLM 方法相同，同样是随机掩盖图像信息，并在训练过程中对图像进行预测与重构。MAE 方法对数据的泛化性更强，更善于处理大规模数据，将无监督训练的速度提高了 3 倍以上，在多个下游任务中表现比监督学习更好。至此，无监督学习方法在自然语言处理、计算机视觉两个深度学习最重要的领域完成了统一；也由此结束了飞速发展期，转而进入缓慢发展阶段。目前，国内外 AI 公司发布的大规模基础模型都采用了无监督学习方法。该方法放大了场景拥有者的竞争优势。在自动驾驶领域，Tesla 的 Auto pilot 通过无监督学习使用数十万 Tesla 司机的行为数据来训练 AI 模型。

据 Tesla 于 2021 年 AI Day 公布的数据，Tesla 平均每天会收到 500,000 条以上的驾驶数据视频，并采用自动标注技术(Auto Labeling)自动生成训练信号，以此训练新的 AI 模型，向 L5 级自动驾驶逐步迈进。2021 年全年，Tesla 共训练了 75,000 个 AI 模型，平均每 8 分钟就要训练一个新的 AI 模型。无监督学习方法使 Tesla 大大降低了 AI 模型的训练成本、提高了 AI 模型的迭代速度，帮助 Tesla 利用自身的数据优势保持在自动驾驶领域的领先地位。BERT、GPT-3 等 AI 大模型的成功使人们认识到模型参数规模、训练数据量对于提高 AI 智能水平效果显著，引发了大规模基础模型开发浪潮，各国内外 AI 巨头纷纷跟进，研发自有的参数规模更大、性能更强的 AI 大模型，享受算法进步带来的数据规模红利。未来，数据质量的重要性可能远高于数量。Google 在对其语言模型 T5 的实验中发现：数据数量与数据质量两个因素间，数据质量更为重要。AI 大模型的正确发展路径是在保证数据质量的前提下，增大数据数量、扩充参数规模。