文生视频大模型行业报告：Sora（36页）

行业报告下载 2024年02月23日 15:50 管理员

Sora依托Transformers架构等技术手段，产品力全面碾压Runway等文生视频模型。 Sora是将Latent Diffusion Model架构与Diffusion Transformer架构结合，但是Runway只用了Latent Diffusion Model架构。由于 Transformer架构强大的参数可拓展性，即随着参数量的增加，Transformer 架构的性能提升会更加明显，DiT在LDM的基础上，把模型从U-Net 换成了Transformer，因而Sora比Runway具有更强大的性能。凭借Transformer架构可以随意设置位置编码，Sora可以接受任意分辨率和尺寸的素材，而Runway需要将素材裁剪至相同的大小。Sora引入 GTP-4将简短的用户提示转换为更长的详细字幕，然后发送到视频模型，有助于Sora更好理解客户需求；而Runway很难理解细微差别，坚持提示中的特定描述而忽略其他描述。Sora依靠从头训练了一套能直接压缩视频的自编码器，Sora 的自编码器不仅能在空间上压缩图像，还能在时间上压缩视频长度，使时长达到了一分钟，而Runway时长小于20秒。在原始视频图像数据直接训练：过去，图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸，如4秒、256x256分辨率的视频。但Sora打破了这一常规，它直接在原始大小的数据上进行训练，从而带来了诸多优势。采样更灵活：Sora具备出色的采样能力，无论是宽屏1920x1080p视频、垂直1080x1920视频，还是介于两者之间的任何视频尺寸，它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是，即使在生成全分辨率内容之前，Sora也能以较小的尺寸迅速创建内容原型。而所有这一切，都得益于使用相同的模型。