Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布。Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。
研究技术
Sora是一种扩散模型,它通过从看似静态噪声的视频开始,逐步去除噪声,经过多个步骤生成视频。
Sora既能一次性生成完整的视频,也能延长已生成的视频以使其变得更长。通过让模型同时预见到许多帧,我们解决了即使主体暂时离开视野也能保持不变这一具有挑战性的问题。
类似于GPT模型,Sora采用了Transformer架构,实现了卓越的规模性能提升。
我们把视频和图像表示为由更小的数据单元——称为patch——组成的集合,每个patch类似于GPT中的一个token。通过统一数据表示方式,我们能够在比以往更广泛的视觉数据集上训练扩散Transformer,这些数据集涵盖了不同的时长、分辨率和宽高比。
Sora借鉴了过去在DALL·E和GPT模型方面的研究成果。它使用了DALL·E 3中的重写标题技术,即为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实于用户在生成视频时的文字指令。
除了仅从文字指令生成视频外,该模型还能接受现有的静态图像并从中生成视频,精确地动画化图像内容并注重细微细节。模型还能够接收现有视频,对其进行扩展或填补缺失帧。更多技术细节请参阅我们的技术报告。
Sora为能够理解和模拟真实世界的模型奠定了基础,我们认为这是实现AGI(通用人工智能)的重要里程碑。

