整理自 | 新智元、 云智瞳
订、阅 | 010-86092062
3月13日,Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B参数视频生成大模型,性能直追HunyuanVideo和30B参数的Step-Video。
权威评测VBench及用户偏好测试均证实其表现卓越,在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。此次发布全面开源模型权重、推理代码及分布式训练全流程,让高质量视频生成真正触手可及,进一步提升视频生成的可及性与可拓展性。
GitHub开源仓库:
https://github.com/hpcaitech/Open-Sora技术报告:
https://github.com/hpcAItech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf作为开源视频生成领域的领导者,Open-Sora不仅继续开源了模型代码和权重,更开源了全流程训练代码,成功打造了强大的开源生态圈。
据第三方技术平台统计,Open-Sora的学术论文引用量半年内获得近百引用,在全球开源影响力排名中稳居首位,领先所有开源的I2V/T2V视频生成项目,成为全球影响力最大的开源视频生成项目之一。
其次,高分辨率训练的成本远超低分辨率,达到相同数据量时,计算开销可能高达40倍。以256px、5秒的视频为例,其tokens数量约8千,而768px的视频tokens数量接近8万,相差10倍,再加上注意力机制的平方级计算复杂度,高分辨率训练的代价极其昂贵。因此,Open-Sora优先将算力投入到低分辨率训练,以高效学习运动信息,在降低成本的同时确保模型能够捕捉关键的动态特征。
高压缩自编码器在训练视频生成模型时面临更高的数据需求和收敛难度,通常需要更多训练数据才能达到理想效果。为解决这一问题,Open-Sora提出了基于蒸馏的优化策略,以提升AE(自编码器)特征空间的表达能力,并利用已经训练好的高质量模型作为初始化,减少训练所需的数据量和时间。
此外,Open-Sora还重点训练图生视频任务,利用图像特征引导视频生成,进一步提升高压缩自编码器的收敛速度,使其在更短时间内达到一定生成效果。
Open-Sora认为,高压缩比视频自编码器将成为未来降低视频生成成本的关键方向。目前的初步实验结果已展现出显著的推理加速效果,希望能进一步激发社区对这一技术的关注与探索,共同推动高效、低成本的视频生成发展。
04 开源精神:Open-Sora 2.0的行业意义
Open-Sora 2.0的开源,绝不仅仅是一个技术事件,它将对整个AI视频生成领域产生深远影响。
降低门槛意味着更多个人和小型团队将有机会参与到AI视频创作中,内容生态将更加多元。这就像是打开了一扇创意的大门,让更多人能够用AI来表达自己。
开源社区的集体智慧将推动技术快速迭代,各种基于Open-Sora 2.0的改进和应用将层出不穷。无数开发者共同为一个项目添砖加瓦,将会进一步加速创新。AI视频生成技术将加速渗透到内容创作、影视制作、广告营销等各个领域。这不仅仅是效率的提升,更是创作方式的变革。
开源力量将对商业巨头形成挑战,促使整个行业加速发展,重塑格局。“鲶鱼效应”将激活整个市场。但开源也带来了新的挑战,如何避免技术滥用,以及内容版权等,需要全行业共同思考和应对。
模型能力的不断提升,将带来更震撼的视觉体验。我们将能够更自由地控制视频中的每一个细节,从角色的表情到场景的光影,一切尽在掌握。
Open-Sora 2.0的开源,是AI视频生成领域的一个里程碑。它不仅展示了技术的巨大潜力,更体现了开源共享的精神。让我们共同期待,AI将如何重塑我们的数字视界。
相关文章
猜你喜欢
成员 网址收录40395 企业收录2981 印章生成235384 电子证书1038 电子名片60 自媒体47038