视频生成有可能是2024年大模型最火的赛道。
在WAIC(世界人工智能大会)上,快手展台隐藏在展馆边缘,快到闭馆的时间,记者在其视频生成模型“可灵”的展位参观,几次被热情的提问者挤开,感兴趣的参观者们围着工作人员抛出各类问题,闭馆音乐响起时,这种热情丝毫没有减少,直到工作人员关闭设备开始“赶人”。
这把火最初是由Sora点燃的,今年2月,OpenAI发布的视频大模型Sora引发轰动,宣告了视频领域“百模大战”的开始。今年以来,国外有Runway、Pika、LumaAI,国内有爱诗科技PixVerse、生数科技Vidu、快手可灵等,大模型“卷”的方向已经从文字、图片来到视频。
不过,视频生成还处于一个早期阶段,技术路线尚未达成共识、生成过程难以控制、生成效果离商业标准还有距离都是问题,不少行业人士都将其与语言、图像模型的早期阶段作类比。
新加坡南洋理工大学助理教授刘子纬认为,视频生成处于大语言模型GPT-3左右的时代,那时距离3.5和ChatGPT的爆发点还有半年左右的时间。智子引擎CEO高一钊则认为,目前的视频生成有点像图像生成的2022年前夕,Stable Diffusion开源之前,因为视频生成领域目前还没有一个特别厉害的开源“Sora”发布。
不少创业者已经开始探索落地,毕竟,等成熟了再做就晚了,过去每一轮新技术出现,“都是在大家看不懂的时候先上”。
高一钊猜测,Runway这样的效果主要是通过针对性地数据训练达成的。“Runway一开始就做了非常多专门训练光影的数据,这其实就是产品方向,团队认为这个产品要真正解决需求,光影必须要自然,所以他们会就很多针对性的方向进行训练。”他认为,产品层和技术层是两套思维。
在视频生成这一领域中,刘子纬未来希望探索“视频生成牛顿第一定律”。他提到,对语言模型来说,目前投入多大算力、用多少数据就能获得多大增益,这种投入产出比是能算出来的,对资本方、产业和应用都是很好的点,但是对于视频生成和多模态来说,目前还没有很明确的标准,多大算力能得到多大提升,这是很本质的问题。此外,在架构方面,自回归或者DiT是否一定是终局,训练成本能否降低都是待探索的问题。
“在大家看不懂的时候先上”
在一场论坛中,谈及视频生成的商业模式,五源资本副总裁石允丰较为谨慎,他判断,就现在视频生成的效果来说,“在流沙上建城堡非常有挑战”,技术底座并没有稳固下来,这时候找PMF(产品市场契合点)挑战很大。
“普通人也能用的视频生成工具,会观察到用户是非常不忠诚的,在不同APP之间跑得非常快。Luma发布了之后4天之内获得了100万用户,这100万用户之前或多或少都已经用过PIika,意义不大。”石允丰认为,今天视频生成是有创作者的,但问题在于,较成熟的内容消费还没出来。
相比投资方的观望,更多的创业者则是另一种“实干派”。
“过去每一轮新的东西出来,绝对不是等成熟了再来做,这样就晚了,都是大家看不懂的时候先上。”FancyTech创始人空界(花名)表示。
FancyTech目前是自研视频和图像模型,聚焦于ToB,为商家生成基础素材,替代基础拍摄的部分,如对商品、物品、模特等的拍摄。空界在论坛上提到,FancyTech去年营收接近1000万美元,今年预计会到两三千万美元。
“我们觉得现在就是很好的应用时间点,”谈到应用落地,空界表示,“要赚钱,要留在牌桌上,能够保证有这样的收入,当不断有新的技术涌现出来的时候,我们在这个上面叠加,同时能够获得我们的特色。”
Morph AI创始人徐怀哲认为,不确定性是创业的巨大机会和意义。“任何一个大公司都是从最开始成长起来的,留给他们的机会是每一个技术浪潮更新的时候,商业模式有巨大不确定性,如果知道答案一步一步往前走,这一定是一个大厂大公司的机会。”
“赶热点是一回事儿,但是更多的还是要产生实际价值。”就今年视频生成赛道的火热,高一钊认为,追随赛道顶流去跟进产品和投入是必然的,但国内也需要形成自己的一套打法和逻辑,在技术和资源上可能暂时落后,但在落地应用上,我们仍然有场景优势。
“AI领域的技术一旦开放,大家复制起来没有想象中那么困难,所以核心竞争点还是在应用上,在技术上差不多的情况下,怎么能深耕到某个领域,解决用户的真实需求。”高一钊认为,应用落地是全世界AI从业者都要回答的问题。
目前,智子引擎第一个选择的落地场景是城市巡检。“无人机等设备会拍下来一些视觉内容,将这些视觉内容传回给我们的大模型进行分析。”高一钊表示,在这样的场景下,大模型的通用性具有的优势是,能解决复杂真实环境的各种突发情况,如下雨刮风的天气情况,摄像头角度不对了等等,相比以往小参数的AI软件,大模型适用性更广。
就C端来看,陈剑毅判断,短期内没有诞生一个AI视频平台级的机会,“AI版的抖音目前来看不太可能”。但如果目光看向产业仍然有机会,他判断,现在AI视频的机会点不是传统的影视内容形式,而是在生成空镜素材、各种MV、故事绘本、网文短剧等方面。
“比如一个企业想拍宣传片,里面需要插入两三段自然风光,这时候就不需要做一些内容的实拍,用AI视频生成很快就能生成。” 陈剑毅认为,短期内很明显可以看到AI视频生成对各种空镜素材是很大的帮助,此外,在教学中,学生只要在提示词里面输入“我想看一看冰山融化的过程”,这时候视频生成就可以将复杂的物理知识通过直观视频展示出来。
井英科技创始人朱江有个有趣的类比,他认为现在的AI生成式时代,有点像寒武纪生命大爆发的时候。“今天很多动物的门类都是寒武纪大爆发的时候突然出现的,那个时代任何一个物种如果考虑未来能不能生存下去,其实都很难。”他提到,当时很大的变化是有一类生物突然进化出了眼睛,他们就取得了阶段性优势。
如何存活?朱江认为,创业公司能不能在新的生成式时代保持“Tire1”技术的水准和理解很重要,不管是做模型还是做应用,“因为新的机会和新的技术发展速度很快,如果等到成熟的时候再理解,可能作为一个创业公司来说商业机会就错过了。”
(本文来自第一财经)
相关文章
猜你喜欢
成员 网址收录40386 企业收录2981 印章生成229790 电子证书1009 电子名片58 自媒体46438