AIGC视频生成行业报告：视频生成的技术演进、范式重塑与商业化路径探索、Sora模型（49页）

行业报告下载 2024年03月11日 15:37 管理员

先行者往往要花费大量时间精力试错，一旦模式跑通，“明牌游戏”就开启了。后来者会有更好的参考系和聚焦方向。ChatGPT后续的文本生成模型进展就说明了这一点。过去一年，AI文本生成和图像生成相继走向成熟，Sora的发布意味着视频生成应用走向成熟的时间比原先预计的更早出现，AIGC已经加速迈入视频生成阶段。对此，甲子光年智库更新了生成式AI技术的成熟应用进程时间表。2024年可实现根据文本提示生成初版短视频，2025年有望实现根据文本生成初版长视频，并在视频制作环节真实使用落地。视频生成技术路线在过去主要有两条，一条是基于Transformer的路线，以Phenaki为代表，第二条是Diffusion Model（扩散模型）路线，该路线在2023年是主流路线，诞生了Meta的Make-A-Video、英伟达的Video LDM，Runway的Gen1、Gen2，字节的MagicVideo等代表性产品。 Sora的发布，对Transformer + Diffusion Model（DiT）路线进行了成果瞩目的验证。Sora模型将视频压缩到低维空间（latent space），并使用时空补丁（Spacetime latent patches）来表示视频。这个过程类似于将文本转换为 Token表示，而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练，并使用解码器将低维空间映射回像素空间，以生成视频。 Sora使用了diffusion模型，给定输入的噪声块+文本prompt，它被训练来预测原始的“干净”分块。 Sora是diffusion transformer，而transformer在各个领域都表现出显著的规模效应。