AIGC专题报告：从文生图到文生视频（74页）

行业报告下载 2023年12月05日 07:20 管理员

单级生成网络：代表有DF-GAN等。只使用一个生成器、一个鉴别器、一个预训练过的文本编码器，使用一系列包含仿射变换的UPBlock块学习文本与图像之间的映射关系，由文本生成图像特征。堆叠结构：多阶段生成网络，代表有stackGAN++、GoGAN等。GAN 对于高分辨率图像生成一直存在许多问题，层级结构的 GAN 通过逐层次，分阶段生成，一步步提生图像的分辨率。在每个分支上，生成器捕获该尺度的图像分布，鉴别器分辨来自该尺度样本的真假，生成器G1接收上一阶段的生成图像不断对图像进行细化并提升分辨率，并且以交替方式对生成器和鉴别器进行训练。

多阶段GAN相比二阶段表现出更稳定的训练行为。（一般来说，GAN的训练是不稳定的，会发生模式倒塌的现象mode collapse，即生成器结果为真但多样性不足）。生成对抗网络实现文本生成图像主要分为三大部分：文本编码器、生成器和鉴别器。文本编码器由RNN或者Bi-LSTM组成，生成器可以做成堆叠结构或者单阶段生成结构，生成模型捕捉样本数据的分布，不断生成图像，判别模型判别输入是来自是真实数据还是来自生成模型，鉴别器用于鉴别生成器生成的图像是否为真和是否符合文本语义。两者在对抗中，不断提升各自的能力，生成器逐渐提升生成图像的能力，生成图像的分布接近真实图像分布，从而提高判别器的判别能力，判别器对真实图像和生成图像进行判别，来提高生成器的生成能力。