揭秘OpenAISora的关键要素时空补丁
“
OpenAI Sora 创新运用时空补丁,将静态图像转化为逼真动态视频。该技术革新了视频生成领域,通过多样化的训练数据和灵活的建模方法,Sora 打破了传统模型的限制,为生成模型开辟了新的可能性。
人工智能如何将静态图像转化为生动逼真的视频?OpenAI 的 Sora 通过创新性地运用时空补丁提出了一个解决方案。
在不断发展的生成模型领域,OpenAI 的 Sora 突显出作为一个重要里程碑的地位,承诺重新塑造我们对视频生成的理解和能力。我们深入探讨了 Sora 背后的技术以及其对图像、视频和 3D 内容创建领域可能产生的影响。
上述演示是由 OpenAI 根据提示生成的:一只猫叫醒正在睡觉的主人,要求喂食。主人试图无视猫,但猫尝试新的策略,最终主人从枕头下拿出一小部分零食来拖延猫一段时间。——有了 Sora,我们的视频内容生成接近于真实,难以分辨。完整模型尚未完全向公众发布,因为它还在测试中。
Sora 的独特方法如何改变视频生成
在生成模型的世界中,我们见过许多方法,从 GAN 到自回归、扩散模型,各有其优势和局限性。Sora 现在引入了一种新的建模技术和灵活性,能够处理各种不同的持续时间、长宽比和分辨率。
Sora 将扩散(diffusion)和变换器(transformer)架构结合在一起,创建了一个扩散变换器模型,并能够提供以下特性:
- 文字转视频 :正如我们所见
- 图像转视频 :为静态图像赋予生命
- 视频转视频 :改变视频风格为其他样式
- 时间扩展视频 :向前或向后
- 创建无缝循环 :看似永不结束的平铺视频
- 图像生成 :静态图像变成一个帧的电影(最高可达 2048 x 2048)
- 生成任何格式的视频 :从 1920 x 1080 到1080 x 1920 以及中间任何分辨率
- 模拟虚拟世界:像 Minecraft 和其他视频游戏一样
- 制作视频 :长度最长可达 1 分钟,包含多个短片
想象一下,你站在厨房里。传统的视频生成模型,如 Pika 和 RunwayML,就像遵循菜谱的厨师一样。他们可以制作出出色的菜肴(视频),但受限于他们所知的菜谱(算法)。这些厨师可能专攻烘焙蛋糕(短片)或煮意大利面(特定类型的视频),使用特定的配料(数据格式)和技巧(模型架构)。
而 Sora 则是一种理解味道基本原理的新型厨师。这位厨师不仅仅是照着菜谱做菜;他们还能创造新的菜谱。Sora 的灵活配料(数据)和技巧(模型架构)使其能够制作出多种高质量的视频,就像大厨创意多样的烹饪一样。
揭秘 Sora 的核心秘密成分:时空补丁探究
时空补丁是 Sora 创新的核心所在,借鉴了 Google DeepMind 在 NaViT 和 ViT(Vision Transformers)上的早期研究成果,这些研究基于 2021 年的《一张图值 16x16 个单词》(An Image is Worth 16x16 Words)论文。
图1:"Vanilla” 视觉变换器架构
在传统上,对于 Vision Transformers,我们使用图像的“补丁”序列来训练变换器模型进行图像识别,而不是像语言变换器那样使用单词。这种处理方式使我们能够摆脱卷积神经网络对图像的处理。
图2:帧/图像如何“补丁化”
然而,对于视觉变换器,我们受限于固定大小和长宽比的图像训练数据,这限制了质量并需要大量图像的预处理工作。
图3:切片视频时态数据的可视化
通过将视频视为补丁序列,Sora 保持了原始的长宽比和分辨率,这类似于 NaViT 对图像的处理方式。这种保留对于捕捉视觉数据的真实本质至关重要,使得模型能够从更加准确的世界表示中学习,从而赋予 Sora 几乎神奇般的准确性。

图4:时空修补(处理)的可视化 来源:OpenAI Sora
这种方法使得 Sora 能够高效处理各种视觉数据,无需像调整大小或填充等预处理步骤。这种灵活性确保每一份数据都为模型的理解做出了贡献,就像厨师使用各种食材来提升菜品的味道一样。
通过时空补丁对视频数据的详细和灵活处理为一系列复杂功能奠定了基础,例如准确的物理模拟和 3D 一致性。这些能力对于创造既真实又遵循世界物理规则的视频至关重要,展示了 AI 创造复杂、动态视觉内容的潜力。
为Sora提供养分:多样数据在训练中的作用
对于生成模型的性能来说,训练数据的质量和多样性至关重要。现有的视频模型传统上是在更为受限制的数据集上进行训练,长度较短且目标较为狭窄。
Sora 利用了广泛且多样的数据集,包括不同持续时间、分辨率和长宽比的视频和图像。它可以重新创建数字世界,比如 Minecraft,很可能还包括了来自 Unreal 或 Unity 等系统的游戏过程和模拟世界片段,以捕捉所有角度和各种风格的视频内容。这使得 Sora 成为了一个像 GPT-4 对文本一样的“通才”模型。
这种广泛的训练使得 Sora 能够理解复杂的动态,并生成既多样又高质量的内容。这种方法模仿了大型语言模型在多样文本数据上的训练方式,将类似的理念应用于视觉内容以实现通才能力。
图5:可变“补丁”NaVit 与传统视觉 Transformers
就像 NaViT 模型通过将来自不同图像的多个补丁打包到单个序列中而展示了显著的训练效率和性能提升一样,Sora 利用时空补丁在视频生成中实现了类似的效率。 这种方法允许更有效地从庞大的数据集中学习,提高了模型生成高保真度视频的能力,同时降低了与现有建模架构相比所需的计算量。
将物理世界栩栩如生地呈现出来:Sora 对于 3D 空间和连贯性的掌握
3D 空间和连贯性是演示的关键亮点之一。通过在广泛的视频数据上进行训练,而无需调整或预处理视频,Sora 学会了以惊人的准确度对物理世界进行建模,因为它能够以原始形式消化训练数据。
它可以生成数字世界和视频,其中对象和角色在三维空间中移动和交互,即使它们被遮挡或离开画面也能保持连贯性。
展望未来:Sora 的未来意义
Sora 为生成模型的可能性树立了新的标杆。这种方法很可能会激励开源社区进行实验,并推动视觉模态的能力发展,推动一代新的生成模型,挑战创造力和真实性的极限。
Sora 的旅程才刚刚开始,正如 OpenAI 所说的:“扩展视频生成模型是建立通用物理世界模拟器的一条有前途的道路”。
Sora 的方法,将最新的 AI 研究与实际应用结合起来,预示着生成模型的光明未来。随着这些技术的不断发展,它们承诺重新定义我们与数字内容的互动方式,使得创建高保真、动态视频更加易于实现和多样化。
参考文献
- Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution:https://arxiv.org/abs/2307.06304
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale:https://arxiv.org/abs/2010.11929
图1:https://arxiv.org/abs/2010.11929
图2:https://arxiv.org/abs/2307.06304
图3:https://twitter.com/kitasenjudesign/status/1489260985135157258
图5:https://arxiv.org/abs/2307.06304
原文地址: https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b

往期推荐

OpenAI发布强大的视频生成工具,让整个行业哀鸿遍野

共有 0 条评论