Sora专题报告： AI文生视频工具、世界模拟器的视频生成器（17页）

行业报告下载 2024年02月23日 15:47 管理员

突破视频时长及镜头切换限制：由于受到 AI 算法和学习能力的限制，RunWay、Pika 等之前的头部 AI 文生视频工具，无法完成镜头切换后的衔接，因此生成的作品往往都局限于 10 秒内的单一镜头视频。而 Sora 不仅可以实现不同镜头之前流畅的切换，还能生成 60 秒的超长视频。更加自由的视频尺寸：基于 OpenAI 公布的 Sora 技术报告，Sora 模型可以生成 1920x1080 与 1080x1920 之间所有尺寸的视频。而 Runway Gen2，仅支持长宽比为 4:3、3:4、16:9、 9:16、1:1、21:9 的视频。背景角色稳定：过往的 AI 文生视频工具通常会出现背景角色不稳定的情况，即在背景中有许多的人或动物的情况下，画面经常出现失真、混乱的情况。而这个问题在 Sora 的视频中也得到了改善，以“东京漫步的女士”视频为例，在 Runway 中输入同样的提示词后，背景人物会做出一些怪异的走路姿势，而 Sora 视频中背景角色表现非常稳定。理解和模拟真实世界：由于 Sora 初步具备了理解和模拟真实世界的能力，因此 Sora 生成的视频通常具备一些新兴特征，主要包括 3D 一致性、物体持久性、模拟物理交互等，这些特征也使得 Sora 生成的视频更加的生动、逼真。 1）3D 一致性：Sora 可以生成带有动态摄像机运动的视频。基于 Sora 在 3D 动态理解和再现的能力，当相机移动时，场景中的人物和物体会以符合三维空间的一致方式进行移动。 2）远程相关性和物体持久性：Sora 通常能够有效地对短期和长期依赖关系进行建模。因此当物体被遮挡时，物体仍然能够被完整的显示。当切换角度、物体离开画面后重新出现，物体仍然能保持前后一致。