Sora是什么?
Sora是OpenAI于2024年2月发布的文本到视频生成模型,能够根据文本描述生成长达60秒的高清视频。这是AI视频生成领域的重大突破,标志着生成式AI从静态图像向动态视频的跨越。
核心突破
Sora首次实现了大规模训练下的视频生成,能够理解物理世界的时空一致性,生成连贯、逼真的视频内容。相比之前的视频生成模型,Sora在视频长度、分辨率和物理合理性上都有质的飞跃。
Sora是OpenAI于2024年2月发布的文本到视频生成模型,能够根据文本描述生成长达60秒的高清视频。这是AI视频生成领域的重大突破,标志着生成式AI从静态图像向动态视频的跨越。
Sora首次实现了大规模训练下的视频生成,能够理解物理世界的时空一致性,生成连贯、逼真的视频内容。相比之前的视频生成模型,Sora在视频长度、分辨率和物理合理性上都有质的飞跃。
Sora采用了Diffusion Transformer(DiT)架构,这是扩散模型和Transformer的结合。传统扩散模型使用U-Net架构,而Sora将Transformer引入扩散过程,带来了更好的扩展性和生成质量。
Sora将视频分解为时空补丁,类似于ViT将图像分解为图像补丁。这种方法使模型能够处理可变长度、可变分辨率的视频输入。
支持生成长达60秒的高清视频,远超之前模型的几秒限制。
视频中的人物、物体保持一致的时空连续性,不会出现跳跃或闪烁。
模型学会了物理世界的规律,如重力、碰撞、流体运动等。
能够生成同一场景的多个视角,保持三维一致性。
Sora的出现标志着AI视频生成进入实用化阶段。其技术路线也验证了Scaling Law在视频生成领域的有效性——更大的模型、更多的数据带来更好的生成效果。
从长远来看,Sora展现的视频理解能力可能是通往世界模型的重要一步。能够预测和理解物理世界的动态变化,是通用人工智能的关键能力。