Sora在英伟达H100上生成1分钟视频约需12分钟

Sora在英伟达H100上生成1分钟视频约需12分钟-3

Sora模型的成本:

Sora的训练需要大量的计算资源,估计需要4211-10528个 Nvidia H100 GPUs运行一个月。

推理成本:一个Nvidia H100 GPU大约每小时能生成5分钟的视频。

初期的Sora成本将非常高,肯定是不适合普通人来使用,所以目前OpenAI都是先找一些艺术和电影工作室或者公司合作。

我们尝试从 DiT 模型的训练细节推断 Sora 的训练计算量。DiT-XL 模型拥有 6.75亿 参数,其训练总计算量约为 10^21 FLOPS。简单来说,这相当于使用 0.4 台 Nvidia H100 计算一个月,或者一台 H100 计算 12 天。

尽管 DiT 仅处理图像,而 Sora 则是视频模型,能够生成长达 1 分钟的视频。假设视频以 24fps 编码,那么一个视频最多包含 1,440 帧。如果按照 DiT 论文中的压缩率(8x)计算,Sora 在潜在空间中可能只处理 180 帧。这意味着,如果我们简单地将 DiT 的计算量外推到视频,计算量将增加 180 倍。

我们估计 Sora 的参数量可能远远超过 6.75亿,可能达到 20B 参数,这使得计算量再增加 30 倍。

此外,我们认为 Sora 训练所用的数据集规模远超 DiT。DiT 训练了 3M 步,批量大小为 256,总共处理了 768M 张图像(尽管 ImageNet 只有 14M 张图像,数据被重复使用)。Sora 似乎使用了图像和视频的混合数据集,但我们对具体内容知之甚少。我们假设 Sora 的数据集有 50% 是静态图像,50% 是视频,并且数据集规模是 DiT 的 10 到 100 倍。然而,考虑到 DiT 重复使用相同数据点,如果有一个更大的数据集,这种重复使用可能不是最佳选择。因此,我们认为计算量的增加可能是 4 到 10 倍。

综合以上因素,我们估算 Sora 的训练计算量可能在 1.1x10^25 (低数据集)到 2.7x10^25 FLOPS (高数据集)之间,相当于 4,211 到 10,528 个 Nvidia H100 计算一个月。

我们还关注训练计算与推理计算的比较。训练计算虽然巨大,但只需一次性投入;而推理计算虽然较小,却会随着每次生成而产生,并且随着模型的普及而变得越来越重要。

Sora在英伟达H100上生成1分钟视频约需12分钟-4

我们进一步探讨了 DiT 和 Sora 的训练与推理计算,并给出了两个估算:一个基于数据集规模增加 4 倍的低估算,和一个基于增加 10 倍的高估算。

对于 Sora,我们根据 DiT 的数据推算出其 FLOPS 为 2.8×10^15 FLOPS。假设每个视频需要 250 个扩散步骤,那么每个视频的总计算量为 708×10^15 FLOPS。以 Nvidia H100 每小时生成 5 分钟视频的速度计算,盈亏平衡点在生成 15.3M 到 38.1M 分钟视频后到来,此后推理计算将超过训练计算。

我们还比较了不同模型在不同模态下每单位输出的推理计算量。我们发现,像 Sora 这样的基于扩散的模型在推理时的计算成本要高得多:DiT-XL(675M 参数)的推理计算量与 LLama 2(70B 参数)相当。Sora 的推理计算量甚至比 GPT-4 高几个数量级。

需要注意的是,上述数字都是基于简化假设的估算,并未考虑 GPU 的实际 FLOPS 利用率、内存容量和带宽限制等因素。

如果我们假设 Sora 这样的模型在市场上获得显著份额,我们需要估算支持大规模 AI 生成视频所需的 Nvidia H100 数量。我们假设每台 Nvidia H100 每小时能生成 5 分钟视频,那么每天能生成 120 分钟视频。

根据 TikTok 和 YouTube 的视频上传数据,我们估算出 AI 生成的视频每天需要 10.7M 分钟,这意味着需要大约 89k 台 Nvidia H100 来支持创作者社区。然而,这个数字可能低估了实际需求,因为我们需要考虑到 FLOPS 利用率、需求的不均匀分布、峰值需求以及创作者生成多个候选视频的情况。总的来说,在峰值时可能需要大约 720k 台 Nvidia H100 GPU。

这表明,随着生成性 AI 模型越来越受欢迎,推理计算将成为主导。对于像 Sora 这样的基于扩散的模型,这一点尤为明显。同时,模型规模的扩大将进一步增加推理计算需求,但通过优化推理技术和整个计算堆栈的其他优化,可以部分抵消这种增加。

原文:https://www.factorialfunds.com/blog/under-the-hood-how-openai-s-sora-model-works

Sora在英伟达H100上生成1分钟视频约需12分钟-5

往期推荐

Sora在英伟达H100上生成1分钟视频约需12分钟-6

Sora在英伟达H100上生成1分钟视频约需12分钟-7

Sora:大型视觉模型的背景、技术、局限性和机遇综述

Sora在英伟达H100上生成1分钟视频约需12分钟-8

人人都能看懂的Sora技术报告

Sora在英伟达H100上生成1分钟视频约需12分钟-9

OpenAI发布强大的视频生成工具,让整个行业哀鸿遍野

版权声明:
作者:小火箭
链接:https://www.xiaohuojian8.top/70.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>