Sora大型视觉模型的背景技术局限性和机遇综述

Sora大型视觉模型的背景技术局限性和机遇综述-3

注 :本文翻译自论文《Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models》,原作者版权所有。

摘要

ABSTRACT

注意:本文档并非 OpenAI 官方发布的技术报告。

Sora 是 OpenAI 在 2024 年 2 月推出的一款文本到视频的生成式人工智能模型。该模型经过训练,能够根据文本指令创造出逼真或富有想象力的视频场景,并在模拟现实世界方面显示出巨大潜力。本文基于公开的技术报告和逆向工程分析,对 Sora 的发展背景、相关技术、应用场景、现存挑战以及文本到视频人工智能模型的未来趋势进行了全面综述。

我们首先回顾了 Sora 的发展进程,并探究了构建这一“世界模拟器”所依赖的关键技术。接着,我们详细阐述了 Sora 在从电影制作、教育到市场营销等多个领域的应用及其可能带来的深远影响。我们还讨论了为了使 Sora 得到广泛应用,需要克服的主要挑战和局限性,比如确保视频生成的安全性和公正性。最后,我们展望了 Sora 以及视频生成模型的未来发展,以及这些领域的进步如何可能开启人机交互的新方式,提升视频生成的效率和创造力。

Sora大型视觉模型的背景技术局限性和机遇综述-4 图1: Sora : 人工智能驱动的视觉生成的突破。

01

简介

INTRODUCTION

自 2022 年 11 月 ChatGPT 亮相以来,人工智能技术的发展不仅重塑了人们的互动方式,还深入渗透到了我们日常生活和工业的多个领域 。借助这股势头,OpenAI 在 2024 年 2 月推出了 Sora,这是一款能够根据文本提示生成现实或虚构场景视频的人工智能模型。

与以往的视频生成模型相比,Sora 的独特之处在于它能够制作长达 1 分钟的高质量视频,并且严格遵循用户的文本指令 。Sora 的这一进步体现了人工智能研究的长期目标,即赋予人工智能系统(或代理)理解和与动态物理世界互动的能力。这包括开发能够不仅解读复杂用户指令,还能通过动态且丰富的上下文模拟来解决现实世界问题的人工智能模型。

Sora大型视觉模型的背景技术局限性和机遇综述-5

图2:Sora在文本到视频生成中的示例。向 OpenAI Sora模型发出文本指令,它根据指令生成三个视频。

Sora 在准确理解和执行复杂人类指令方面表现出色,如图 2 所示。该模型能够创造出包含多个角色在复杂背景下执行特定动作的详尽场景。研究人员认为 Sora 的这一能力不仅源于它处理用户生成的文本提示,还在于它能够理解场景内元素之间的复杂相互作用。

Sora 最引人注目的特点之一是其能够制作长达一分钟的视频,同时保持高水平的视觉质量和连贯性。这与早期模型只能生成短视频片段形成鲜明对比,Sora 的视频创作不仅具有连贯的叙事流程,而且从第一帧到最后一帧都保持了视觉的一致性。

此外,Sora 在制作包含细腻动作和互动描述的长视频序列方面的进步,克服了早期视频生成模型在短片和简单视觉渲染方面的限制。这种能力标志着人工智能创意工具的一大飞跃,使用户能够将文本叙事转化为丰富的视觉故事。

总的来说,这些进步展示了 Sora 作为世界模拟器的潜力,它能够为描绘场景的物理和上下文动态提供细致的洞察。

技术核心

Sora 的核心是一个预训练的扩散变换器 。变换器模型在许多自然语言任务中已被证明是可扩展且有效的。与 GPT-4 等强大的大型语言模型类似,Sora 能够解析文本并理解复杂的用户指令。为了提高视频生成的计算效率,Sora 使用时空潜在补丁作为其构建模块。

具体来说,Sora 将原始输入视频压缩成时空潜在表示,然后从压缩视频中提取一系列潜在时空补丁,以封装短时间内的视觉外观和动态。这些补丁,类似于语言模型中的词元(word token),为 Sora 提供了构建视频所需的详细视觉短语(visual phase)。Sora 的文本到视频生成过程是由扩散变换器模型执行的,它从一个充满视觉噪声的帧开始,通过迭代去噪并根据文本提示引入特定细节,逐步细化视频,使其更符合期望的内容和质量。

Sora的亮点

Sora 的能力在多个方面都具有深远的影响:

- 提升模拟能力 :Sora 的大规模训练使其在模拟物理世界的各个方面表现出色。尽管没有明确的 3D 建模,Sora 却展现出了动态摄像机运动和长距离连贯性的 3D 一致性,包括对象的持久性和与世界的简单互动。此外,Sora 还能模拟数字环境,如 Minecraft,即使在基本策略的控制下,也能保持视觉的真实性。这些新出现的能力表明,扩展视频模型在创建能够模拟物理和数字世界复杂性的人工智能模型方面是有效的。

- 激发创造力 :想象一下,只需通过文本概述一个概念,无论是简单的物体还是完整的场景,几秒钟内就能看到现实或高度风格化的视频呈现。Sora 使得设计过程加速,艺术家、电影制作人和设计师可以更快地探索和完善创意,从而显著提升创造力。

- 推动教育创新 :视觉辅助一直是教育中理解重要概念的关键。借助 Sora,教育工作者可以轻松地将课程计划转化为视频,以吸引学生的注意力并提高学习效率。从科学模拟到历史重现,可能性无限。

- 提高可访问性 :在视觉领域提高可访问性至关重要。Sora 通过将文本描述转化为视觉内容,为包括视觉障碍人士在内的所有人提供了一种创新的解决方案。这种能力使人们能够积极参与到内容创作,并以更有效的方式与他人互动。因此,它有助于创造一个更具包容性的环境,让每个人都有机会通过视频表达自己的想法。

- 促进新兴应用 :Sora 的应用前景广阔。例如,市场营销人员可能会利用它根据特定受众描述创建动态广告。游戏开发者可能会使用它根据玩家的叙述生成定制化的视觉元素或角色动作。

限制与机遇

尽管 Sora 的成就凸显了人工智能领域的重大进展,但仍面临挑战。模型在描绘复杂动作或捕捉微妙面部表情方面仍有提升空间。此外,伦理问题,如减少生成内容中的偏见和防止有害视觉输出,强调了开发者、研究人员和更广泛社区负责任使用的重要性。确保 Sora 输出的一致安全性和公正性是一个主要挑战。

视频生成领域正在迅速发展,学术界和工业界的研究团队正不懈努力。竞争性文本到视频模型的出现预示着 Sora 可能很快成为动态生态系统的一部分。这种合作与竞争的环境促进了创新,带来了视频质量的提升和新应用的开发,这些新应用有助于提高工作效率,使人们的生活更加丰富多彩。

我们的贡献

基于已发布的技术报告和我们的逆向工程分析,本文首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前限制和未来机遇。

02

背景

BACKGROUND

历史

HISTORY

01

在计算机视觉领域,深度学习革命之前,传统的图像生成技术主要依赖于纹理合成和纹理映射等方法,这些方法在创造复杂和生动图像方面的能力有限。

生成对抗网络(GANs)和变分自编码器(VAEs)的出现标志着一个重要的转折点,因为它们在多种应用中展现出了卓越的性能。随后的流模型和扩散模型进一步提升了图像生成的细节和质量。人工智能生成内容(AIGC)技术的进步使得内容创作变得更加民主化,用户可以通过简单的文本指令生成所需内容。

在过去十年中,生成式计算机视觉模型的发展呈现出多样化的路径(如图3所示)。这一领域在自然语言处理(NLP)中成功应用变换器(Transformer)架构后开始显著转变,如BERT和GPT。在计算机视觉中,研究人员将这一概念推向新的高度,通过将变换器架构与视觉组件结合,使其能够应用于下游任务,如Vision Transformer(ViT)和Swin Transformer。

与此同时,扩散模型在图像和视频生成领域也取得了显著进展。扩散模型提供了一个数学上健全的框架,用于将噪声转换为图像,U-Nets在此过程中通过学习预测和减轻每一步的噪声来促进这一过程。

自2021年以来,人工智能的重点一直是能够解释人类指令的生成式语言和视觉模型,即多模态模型。例如,CLIP是一个开创性的视觉-语言模型,它结合了变换器架构和视觉元素,便于在大量文本和图像数据集上进行训练。通过整合视觉和语言知识,CLIP可以在多模态生成框架内充当图像编码器。

另一个值得注意的例子是Stable Diffusion,这是一个多功能的文本到图像AI模型,因其适应性和易用性而受到赞誉。它采用变换器架构和潜在扩散技术来解码文本输入,并生成各种风格的图像,进一步展示了多模态AI的进步。

Sora大型视觉模型的背景技术局限性和机遇综述-6 图3: 视觉领域生成式 人工智能的历史。

在2022年11月ChatGPT发布后,我们在2023年见证了商业文本到图像产品的兴起,如Stable Diffusion、Midjourney、DALL-E 3。这些工具使用户能够通过简单的文本提示生成高分辨率和高质量的新图像,展示了人工智能在创造性图像生成中的潜力。

然而,从文本到图像过渡到文本到视频是具有挑战性的,因为视频的时间复杂性。

尽管在工业界和学术界进行了无数努力,但大多数现有的视频生成工具,如Pika和Gen-2,仅限于生成几秒钟的短视频片段。在这种背景下,Sora代表了一项重大突破,类似于ChatGPT在NLP领域的影响。

Sora是第一个能够根据人类指令生成长达一分钟视频的模型,标志着对生成式人工智能研究和发展产生深远影响的里程碑。为了便于访问视觉生成模型的最新进展,最近的工作已汇编并在附录和我们的GitHub上提供。

高级概念

ADVANCED CONCEPTS

02

视觉模型的缩放定律

随着LLMs的缩放定律,人们自然会问视觉模型的发展是否遵循类似的缩放定律。最近,Zhai等人已经证明,具有足够训练数据的ViT模型的性能-计算前沿大致遵循一个(饱和的)幂律。紧随其后,Google Research提出了一种高效且稳定训练22B参数ViT的方法。

结果表明,可以使用冻结的模型生成嵌入,然后在其上训练薄层,实现出色的性能。作为大型视觉模型(LVM),Sora符合这些缩放原则,在文本到视频生成中揭示了几种涌现能力。这一重大进展强调了LVMs实现类似于LLMs的进步的潜力。

涌现能力

LLMs中的涌现能力是复杂的行为或功能,这些行为或功能在一定规模下显现出来——通常与模型参数的大小有关——而这些并不是由它们的开发者明确编程或预期的。这些能力被称为“涌现”,因为它们是从模型在不同数据集上的全面训练,加上其庞大的参数数量中产生的。这种组合使模型能够形成联系并进行推断,超越了单纯的模式识别或死记硬背。

通常,这些能力的产生不能通过从较小规模模型的性能外推来直接预测。虽然许多LLMs,如Chat-GPT和GPT-4,表现出涌现能力,但在Sora出现之前,展示类似能力的视图模型很少。根据Sora的技术报告,它是第一个展示确认的涌现能力的视图模型,标志着计算机视觉领域的一个重要里程碑。

请继续阅读:

Sora:大型视觉模型的背景、技术、局限性和机遇综述(2)

Sora:大型视觉模型的背景、技术、局限性和机遇综述(3)

Sora:大型视觉模型的背景、技术、局限性和机遇综述(4)

本文为翻译作品,标记「原创」仅防止随意转载,版权信息归论文作者所有。

Sora大型视觉模型的背景技术局限性和机遇综述-7

往期推荐

Sora大型视觉模型的背景技术局限性和机遇综述-8

Sora大型视觉模型的背景技术局限性和机遇综述-9

人人都能看懂的Sora技术报告

Sora大型视觉模型的背景技术局限性和机遇综述-10

揭秘OpenAI Sora的关键要素:时空补丁

Sora大型视觉模型的背景技术局限性和机遇综述-11

OpenAI发布强大的视频生成工具,让整个行业哀鸿遍野

版权声明:
作者:小火箭
链接:https://www.xiaohuojian8.top/107.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>