潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证

> 自媒体 > （AI）人工智能 > 潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

来源：量子位

2025-02-05 17:45:38

171

管理

编辑部发自凹非寺

量子位 | 公众号 QbitAI

奥特曼说，Sora代表了视频生成大模型的GPT-1时刻。

从开年到现在，国内外、初创独角兽到互联网大厂，都纷纷投入视频生成领域，带来一个个新鲜模型的同时，视频、影视行业也随之发生巨变。

不可否认，当下的视频生成模型还遇到诸多问题，比如对空间、对物理规律的理解，我们都期待着视频生成的GPT-3.5/4时刻到来。

在国内，有这样一家从加速训练出发的初创公司，正在为此努力。

它就是潞晨科技，创始人尤洋博士毕业于UC伯克利，后赴新加坡国立大学担任校长青年教授。

今年潞晨科技在加速计算领域之外，开发视频生成模型VideoOcean，为行业带来更具性价比的选择。

在MEET 2025现场，尤洋博士也向我们分享这一年对于视频生成领域的理解与认知。

我们之前是做算力优化的。2018年谷歌打造了世界上第一个千卡集群TPU Pod，当时世界上最大的模型还是BERT。我们帮助谷歌，将（当时）世界上最大模型的训练时间从3天压缩到76分钟。

也很荣幸，去年华为盘古大模型的一个工作也是我们一起来做的，并获得了ACL最佳论文。我们的技术帮助华为盘古大模型在训练中更高效。微软、英伟达等公司团队也使用了我们的技术做一些分布式训练，我们希望让大模型训练更快、成本更低。

我认为AI视频大模型未来3年可能最重要的还是实现视频大模型的Scaling Law。

这个过程不需要非常炫酷的产品能力，最重要的是把它的模型与现实世界的连接能力做到极致。我觉得最终形态就是人们说一段话、给一段描述，它能精准地把描述以视频的方式展示出来。

所以我觉得未来3年，AI视频大模型就像山姆·奥特曼说的那样，今天是Video的GPT-1时刻，可能3年后到视频大模型的GPT-3.5、GPT-4时刻。

这里展示一下Video Ocean的Demo，目前我们做到了这样的水平。

潞晨科技

，赞687

第二点是未来视频大模型怎样能够实现任意机位、任意角度。

现在拍电影、拍纪录片可以拿着手机、摄像机不断地晃，想怎么晃就怎么晃，这样是对镜头有真实控制的。未来AI视频大模型，首先应该做到这一点，同样的描述，换一下角度、换一个镜头，它的形象是不应该改变的，它就是同样一个物体。

更进一步讲，未来AI视频大模型还能颠覆很多行业。比如现在看足球、看篮球赛，我们看到的镜头是现场编导给我们看的镜头。他给我们看远景、近景。

未来能不能依靠AI视频大模型，人来控制镜头，决定想要看哪，相当于在体育场里可以瞬间移动，移动到教练席、最后一排、第一排。任意机位、任意角度的控制。我觉得未来AI视频大模型在这方面也是非常关键的，当然当然Video Ocean现在做了一些尝试，初步效果还是不错的。

我觉得第三点重要的是角色一致性。

因为做出AI视频大模型，最终肯定是需要产生营收、实现变现的。谁会愿意为这个付费，比如广告工作室、广告商、电商博主、影视行业。如果深入这些行业的话，一个关键点是角色一致性。

比如一个产品的广告，肯定从头到尾这个视频中的衣服、鞋、车，样貌不能有太大变化，物体角色保持一致性。

拍一部电影，从开头到结尾，主演的样貌、关键配角的样貌肯定也不能变化，在这方面Video Ocean也做一些很好的探索。

再一个是风格的定制化。我们知道现在演员人工成本是非常贵的，道具成本也很高。

未来3年之内，如果AI视频大模型正常发展，我感觉会有一种需求，比如一个导演可以让一个演员在游泳池里拍一段戏，然后拿到素材通过AI将它转成泰坦尼克场景下的游泳，转成阿凡达场景下的游泳，这种能力反而是AI最擅长的。赋予电影感、艺术感的画面。

总之大模型一个直接的应用价值就是突破现实的限制，能够极大降低真实场景复现的难度。

可能之前大家听过一个段子，好莱坞导演想制造一个爆炸镜头，他算了一下预算，第一种方案是盖一个城堡把它炸掉，第二个方案是用计算机模拟这个画面。成本算下来之后，发现这两种方案的成本都很高，当时用计算机模拟的成本更高，现在AI就是要大幅降低大模型对于生成电影的成本。

如果这一点实现后，我们可以不受场地、天气等外部因素的限制，并减少对真实演员的依赖。这倒不是抢演员的饭碗，因为一些关键镜头是非常危险的，比如演员跳飞机、跳楼，演员去解救即将引爆的炸弹之类，这种镜头未来只需要演员的身份和肖像权，AI可以把这样的镜头做好，所以对电影行业能够极大做到降本增效。

正如昆仑万维方汉老师刚才说的，虽然我们的计算资源有限，但是我们发现通过更好的算法优化确实能够训出更好的效果，比如Meta使用6000多个GPU训练30B的模型，最近我们会在一个月内发一个10B版的模型，我们仅用了256卡。

Video Ocean前身是我们团队先打造了一个Open-Sora的开源产品，这个开源产品是完全免费的，在Github上，效果非常不错，比如美国独角兽Lambda labs做了一个火爆的应用数字乐高，其实这个数字乐高就是基于Open-Sora做的。

今年年初Sora出来之后，各种短视频巨头都对视频大模型这一块比较重视，比如中国的快手、抖音，美国就是Instagram、TikTok、SnapChat，这可以看到SnapChat的视频模型也在早些时候发布了，叫Snap Video，这是它的官方论文，他们就引用了我们训练视频大模型的技术，所以说这些技术也帮助一些巨头真正把视频大模型训得更快，精度更高，智能程度更高。

谢谢大家！

点击https://video.luchentech.com可体验Video Ocean更多详细能力

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT-4在创造力测试中表现不俗

1个月前

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

1个月前