Open-Sora 2.0发布,以224张GPU、20万美元打造的商业级开源视频生成模型 - -知识铺
在人工智能领域,视频生成技术正以前所未有的速度发展。从OpenAI的Sora到众多开源和闭源的视频生成模型,AI生成的视频质量不断提升,但随之而来的是模型规模、数据量和计算资源的急剧增长。然而,HPC-AI Tech的Open-Sora团队却在这一领域取得了突破性进展。他们最新发布的Open-Sora 2.0模型,仅以20万美元的训练成本,成功打造了一款商业级视频生成模型。这一成就不仅展示了高效训练的可能性,还为视频生成技术的普及和创新打开了新的大门。
1 模型特点:高性能、低成本
在VBench上,Open-Sora 2.0显著缩小了与OpenAI的Sora的差距,与Open-Sora 1.2相比,从4.52%减少到0.69%。
人类偏好结果显示,Open-Sora 2.0与HunyuanVideo 11B和Step-Video 30B相当。
凭借出色的性能,Open-Sora 2.0具有成本效益。
3 技术解读
代码地址:https://github.com/hpcaitech/Open-Sora
技术报告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf
模型:
Huggingface: https://huggingface.co/hpcai-tech/Open-Sora-v2
ModelScope: Open-Sora-v2
3.1 . 数据策略
Open-Sora 2.0的成功离不开其精心设计的数据策略。团队构建了一个分层的数据金字塔,通过逐步加强过滤程度,获得更小但更纯净的数据子集。数据过滤系统由预处理和评分过滤两部分组成。预处理阶段将原始视频转换为适合训练的短视频片段,过滤掉不符合要求的视频。随后,通过一系列评分过滤器,逐步筛选出高质量的数据。
预处理阶段首先剔除损坏的文件和属性异常的原始视频,如时长小于2秒、每像素比特数低于0.02、帧率低于16fps、宽高比超出[1/3, 3]范围的视频。接着,通过FFmpeg的libavfilter库检测连续镜头,并根据场景得分的变化将视频分割为短片。
评分过滤系统包括多个互补的过滤器,每个过滤器针对数据质量的特定方面进行评估。例如,美学评分通过CLIP+MLP模型评估视频的美学质量,运动评分通过VMAF运动评分衡量视频的运动强度,模糊检测通过拉普拉斯算子评估图像清晰度,OCR检测文本区域,相机抖动检测则通过PySceneDetect库识别相机抖动。
为了生成详细的视频描述,团队使用开源的视觉语言模型LLaVA-Video对256px视频进行标注,并利用更强的专有模型Qwen 2.5 Max为高分辨率768px数据生成更准确的描述。标注内容涵盖主体、动作、背景、光照、相机运动和视频风格等六个方面。
通过对视频数据的关键属性进行统计分析,团队发现大多数视频的美学评分在4.5到5.5之间,时长集中在6到8秒,宽高比多为16:9格式。超过70%的视频描述超过75个单词,为训练提供了丰富的信息。
3.2. 模型架构
Open-Sora 2.0的模型架构由两部分组成:自动编码器(Autoencoder)和扩散变换器(Diffusion Transformer)。
3D自动编码器
团队首先使用开源的HunyuanVideo VAE作为初始自动编码器,随后开发了具有深度压缩的视频自动编码器(Video DC-AE),以提高效率并保持高重建保真度。Video DC-AE通过增加空间压缩比,减少了空间令牌的数量,同时保留了关键的运动特征。
DiT架构
为了捕捉长距离依赖关系,团队采用了全注意力机制,并通过补丁化(patchify)潜在表示来提高计算效率。受FLUX的MMDiT启发,Open-Sora 2.0采用了混合变换器架构,结合了双流和单流处理块,并通过3D RoPE(旋转位置嵌入)增强了模型对时空信息的捕捉能力。
3.3. 模型训练
为了在有限的预算内训练出高质量的视频生成模型,团队提出了一个成本效益高的训练管道,分为三个阶段:低分辨率视频的文本到视频训练、低分辨率视频的图像到视频训练以及高分辨率视频的微调。
高效训练策略
团队通过以下四个关键方面实现了高效训练:
- 利用开源图像模型:通过预训练图像模型加速视频模型训练。
- 高质量训练数据:从大规模数据集中筛选高质量子集用于低分辨率训练。
- 低分辨率学习运动:先在256px分辨率上学习运动模式,再提高分辨率以改善感知质量。
- 图像到视频模型促进分辨率适应:通过图像到视频模型更高效地适应高分辨率。
训练设置基于Open-Sora 1.2,采用流匹配(flow matching)作为主要训练目标,使用AdamW优化器,并通过多桶训练(multi-bucket training)处理不同帧数、分辨率和宽高比的视频。
3.4 条件控制
Open-Sora 2.0支持图像到视频和运动控制等多种条件生成方式。通过图像条件丢弃(image condition dropout)和动态图像引导缩放策略,团队实现了对生成视频的精确控制。
3.5 系统优化
团队使用ColossalAI进行模型训练,结合多种并行化技术(如数据并行、上下文并行)和选择性激活检查点(activation checkpointing),最大化硬件效率。此外,通过自动恢复系统和优化数据加载器,确保了训练的连续性和高效性。
3.5. 性能评估
Open-Sora 2.0在文本到视频和图像到视频生成任务中表现出色,支持256px和768px分辨率,生成视频长度可达128帧。通过与多个闭源API和开源模型的对比评估,Open-Sora 2.0在视觉质量、提示符遵循和运动质量三个方面均表现优异。
4. 结论
Open-Sora 2.0展示了通过精心优化数据、模型架构和训练策略,以极低成本实现高质量视频生成的可行性。尽管训练成本仅为20万美元,Open-Sora 2.0在性能上与全球领先的视频生成模型不相上下。通过开源这一模型,团队希望推动视频生成技术的进一步发展,激发更多创新。
——完——
@北方的郎 · 专注模型与代码
喜欢的朋友,欢迎赞同、关注、分享三连 ^O^
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/20251007/Open-Sora-2.0%E5%8F%91%E5%B8%83%E4%BB%A5224%E5%BC%A0GPU20%E4%B8%87%E7%BE%8E%E5%85%83%E6%89%93%E9%80%A0%E7%9A%84%E5%95%86%E4%B8%9A%E7%BA%A7%E5%BC%80%E6%BA%90%E8%A7%86%E9%A2%91%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com