> 自媒体 > (AI)人工智能 > 潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025
潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025
来源:量子位
2025-02-05 17:45:38
72
管理

编辑部 发自 凹非寺

量子位 | 公众号 QbitAI

奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。

从开年到现在,国内外、初创独角兽到互联网大厂,都纷纷投入视频生成领域,带来一个个新鲜模型的同时,视频、影视行业也随之发生巨变。

不可否认,当下的视频生成模型还遇到诸多问题,比如对空间、对物理规律的理解,我们都期待着视频生成的GPT-3.5/4时刻到来。

在国内,有这样一家从加速训练出发的初创公司,正在为此努力。

它就是潞晨科技,创始人尤洋博士毕业于UC伯克利,后赴新加坡国立大学担任校长青年教授。

今年潞晨科技在加速计算领域之外,开发视频生成模型VideoOcean,为行业带来更具性价比的选择。

在MEET 2025现场,尤洋博士也向我们分享这一年对于视频生成领域的理解与认知。

我们之前是做算力优化的。2018年谷歌打造了世界上第一个千卡集群TPU Pod,当时世界上最大的模型还是BERT。我们帮助谷歌,将(当时)世界上最大模型的训练时间从3天压缩到76分钟。

也很荣幸,去年华为盘古大模型的一个工作也是我们一起来做的,并获得了ACL最佳论文。我们的技术帮助华为盘古大模型在训练中更高效。微软、英伟达等公司团队也使用了我们的技术做一些分布式训练,我们希望让大模型训练更快、成本更低。

我认为AI视频大模型未来3年可能最重要的还是实现视频大模型的Scaling Law。

这个过程不需要非常炫酷的产品能力,最重要的是把它的模型与现实世界的连接能力做到极致。我觉得最终形态就是人们说一段话、给一段描述,它能精准地把描述以视频的方式展示出来。

所以我觉得未来3年,AI视频大模型就像山姆·奥特曼说的那样,今天是Video的GPT-1时刻,可能3年后到视频大模型的GPT-3.5、GPT-4时刻。

这里展示一下Video Ocean的Demo,目前我们做到了这样的水平。

潞晨科技

,赞687

第二点是未来视频大模型怎样能够实现任意机位、任意角度。

现在拍电影、拍纪录片可以拿着手机、摄像机不断地晃,想怎么晃就怎么晃,这样是对镜头有真实控制的。未来AI视频大模型,首先应该做到这一点,同样的描述,换一下角度、换一个镜头,它的形象是不应该改变的,它就是同样一个物体。

更进一步讲,未来AI视频大模型还能颠覆很多行业。比如现在看足球、看篮球赛,我们看到的镜头是现场编导给我们看的镜头。他给我们看远景、近景。

未来能不能依靠AI视频大模型,人来控制镜头,决定想要看哪,相当于在体育场里可以瞬间移动,移动到教练席、最后一排、第一排。任意机位、任意角度的控制。我觉得未来AI视频大模型在这方面也是非常关键的,当然当然Video Ocean现在做了一些尝试,初步效果还是不错的。

我觉得第三点重要的是角色一致性。

因为做出AI视频大模型,最终肯定是需要产生营收、实现变现的。谁会愿意为这个付费,比如广告工作室、广告商、电商博主、影视行业。如果深入这些行业的话,一个关键点是角色一致性。

比如一个产品的广告,肯定从头到尾这个视频中的衣服、鞋、车,样貌不能有太大变化,物体角色保持一致性。

拍一部电影,从开头到结尾,主演的样貌、关键配角的样貌肯定也不能变化,在这方面Video Ocean也做一些很好的探索。

再一个是风格的定制化。我们知道现在演员人工成本是非常贵的,道具成本也很高。

未来3年之内,如果AI视频大模型正常发展,我感觉会有一种需求,比如一个导演可以让一个演员在游泳池里拍一段戏,然后拿到素材通过AI将它转成泰坦尼克场景下的游泳,转成阿凡达场景下的游泳,这种能力反而是AI最擅长的。赋予电影感、艺术感的画面。

总之大模型一个直接的应用价值就是突破现实的限制,能够极大降低真实场景复现的难度。

可能之前大家听过一个段子,好莱坞导演想制造一个爆炸镜头,他算了一下预算,第一种方案是盖一个城堡把它炸掉,第二个方案是用计算机模拟这个画面。成本算下来之后,发现这两种方案的成本都很高,当时用计算机模拟的成本更高,现在AI就是要大幅降低大模型对于生成电影的成本。

如果这一点实现后,我们可以不受场地、天气等外部因素的限制,并减少对真实演员的依赖。这倒不是抢演员的饭碗,因为一些关键镜头是非常危险的,比如演员跳飞机、跳楼,演员去解救即将引爆的炸弹之类,这种镜头未来只需要演员的身份和肖像权,AI可以把这样的镜头做好,所以对电影行业能够极大做到降本增效。

正如昆仑万维方汉老师刚才说的,虽然我们的计算资源有限,但是我们发现通过更好的算法优化确实能够训出更好的效果,比如Meta使用6000多个GPU训练30B的模型,最近我们会在一个月内发一个10B版的模型,我们仅用了256卡。

Video Ocean前身是我们团队先打造了一个Open-Sora的开源产品,这个开源产品是完全免费的,在Github上,效果非常不错,比如美国独角兽Lambda labs做了一个火爆的应用数字乐高,其实这个数字乐高就是基于Open-Sora做的。

今年年初Sora出来之后,各种短视频巨头都对视频大模型这一块比较重视,比如中国的快手、抖音,美国就是Instagram、TikTok、SnapChat,这可以看到SnapChat的视频模型也在早些时候发布了,叫Snap Video,这是它的官方论文,他们就引用了我们训练视频大模型的技术,所以说这些技术也帮助一些巨头真正把视频大模型训得更快,精度更高,智能程度更高。

谢谢大家!

点击https://video.luchentech.com可体验Video Ocean更多详细能力

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
赶海的老阿姨..(普通会员)
文章
886
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40386 企业收录2981 印章生成229695 电子证书1008 电子名片58 自媒体46281

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索