人工智能行业报告：Vidu国内AI视频生成模型（24页）

行业报告下载 2024年05月16日 10:06 管理员

在 U-ViT 前，Diffusion 模型中的主流主干（backbone）一直为基于 CNN 的 U-Net。U-net 是 2015 年的论文《U-Net:ConvolutionalNetworksforBiomedicalImageSegmentation》中首次提出的，其在生物医学图像分割领域取得了显著的效果，并因此被广泛应用于各种图像分割任务中。由于网络图形似英文字母“U”，故称为 U-Net。具体来看，基于 CNN 的 U-Net 具有一组下采样（downsampling）块和一组上采样（upsampling）块，且以长跳跃连接（longskipconnection）贯穿整个网络。其中，长跳跃连接有助于解决 CNN 在处理图像分割等任务时可能出现的信息丢失问题，也是随后 U-Net 重点借鉴的部分。U-ViT 是生数团队设计的一种简单通用的、基于 ViT 的架构，用于使用 Diffusion生成图像。打响扩散模型中 CNN 被 Transformer 取代的重要一枪。生数科技团队自主研发并于 2022 年 9 月提出了 U-ViT，其早于 Sora 采用的 DiT（DiffusionTransformer），是全球首个将 Diffusion 与 Transformer 融合的知名架构。U-ViT 通过将广泛应用的 U-Net 模型中的 CNN 部分替换为 Transformer 架构，得以同时结合了两者的优势，为图像和视频生成提供了一种新的方法论。模型首先对输入图像进行分割处理（分割为 patch），与时间和条件一道表示为 token 后通过 Embedding 层，随后经过 TransformerBlock 后输出为 token，并通过一个线性层转为图块，最后通过一个可选的 3X3 卷积层输出为最终结果： 1）遵循 Transformers 的设计理念，U-ViT 将包括时间、条件和噪声图像在内的所有输入都视作为 token。U-ViT 延续了 ViT 的方法，将带噪图片划分为多个区块之后，与时间 t、条件 c 和图像块一起转为 token 输入到 TransformerBlock。 2）借鉴 U-Net，U-ViT 在 Transformer 的浅层和深层之间采用长跳转连接，总数量为 (#Blocks-1)/2。长跳跃连接允许模型在处理数据时跳过某些层，从而帮助模型在深层网络中更有效地传递信息、避免了在训练深层网络时可能出现的梯度消失或爆炸问题。通过长跳转连接，模型可以保持对输入数据的高层次理解，同时也能够利用浅层网络的细节信息。此外，U-ViT 也证明了在基于扩散的图像建模中，CNN 中的下采样和上采样并非必须。 3）最后添加 3×3 卷积块用以增加图片输出质量。U-ViT 在输出之前添加了一个可选、而非必须的 3×3 卷积块以获得更好的视觉质量。