> 自媒体 > (AI)人工智能 > 视频生成混战:在“GPT-3”时代,“大家看不懂的时候要先上”
视频生成混战:在“GPT-3”时代,“大家看不懂的时候要先上”
来源:第一财经
2025-02-06 15:30:07
173
管理

视频生成有可能是2024年大模型最火的赛道。

在WAIC(世界人工智能大会)上,快手展台隐藏在展馆边缘,快到闭馆的时间,记者在其视频生成模型“可灵”的展位参观,几次被热情的提问者挤开,感兴趣的参观者们围着工作人员抛出各类问题,闭馆音乐响起时,这种热情丝毫没有减少,直到工作人员关闭设备开始“赶人”。

这把火最初是由Sora点燃的,今年2月,OpenAI发布的视频大模型Sora引发轰动,宣告了视频领域“百模大战”的开始。今年以来,国外有Runway、Pika、LumaAI,国内有爱诗科技PixVerse、生数科技Vidu、快手可灵等,大模型“卷”的方向已经从文字、图片来到视频。

不过,视频生成还处于一个早期阶段,技术路线尚未达成共识、生成过程难以控制、生成效果离商业标准还有距离都是问题,不少行业人士都将其与语言、图像模型的早期阶段作类比。

新加坡南洋理工大学助理教授刘子纬认为,视频生成处于大语言模型GPT-3左右的时代,那时距离3.5和ChatGPT的爆发点还有半年左右的时间。智子引擎CEO高一钊则认为,目前的视频生成有点像图像生成的2022年前夕,Stable Diffusion开源之前,因为视频生成领域目前还没有一个特别厉害的开源“Sora”发布。

不少创业者已经开始探索落地,毕竟,等成熟了再做就晚了,过去每一轮新技术出现,“都是在大家看不懂的时候先上”。

高一钊猜测,Runway这样的效果主要是通过针对性地数据训练达成的。“Runway一开始就做了非常多专门训练光影的数据,这其实就是产品方向,团队认为这个产品要真正解决需求,光影必须要自然,所以他们会就很多针对性的方向进行训练。”他认为,产品层和技术层是两套思维。

在视频生成这一领域中,刘子纬未来希望探索“视频生成牛顿第一定律”。他提到,对语言模型来说,目前投入多大算力、用多少数据就能获得多大增益,这种投入产出比是能算出来的,对资本方、产业和应用都是很好的点,但是对于视频生成和多模态来说,目前还没有很明确的标准,多大算力能得到多大提升,这是很本质的问题。此外,在架构方面,自回归或者DiT是否一定是终局,训练成本能否降低都是待探索的问题。

“在大家看不懂的时候先上”

在一场论坛中,谈及视频生成的商业模式,五源资本副总裁石允丰较为谨慎,他判断,就现在视频生成的效果来说,“在流沙上建城堡非常有挑战”,技术底座并没有稳固下来,这时候找PMF(产品市场契合点)挑战很大。

“普通人也能用的视频生成工具,会观察到用户是非常不忠诚的,在不同APP之间跑得非常快。Luma发布了之后4天之内获得了100万用户,这100万用户之前或多或少都已经用过PIika,意义不大。”石允丰认为,今天视频生成是有创作者的,但问题在于,较成熟的内容消费还没出来。

相比投资方的观望,更多的创业者则是另一种“实干派”。

“过去每一轮新的东西出来,绝对不是等成熟了再来做,这样就晚了,都是大家看不懂的时候先上。”FancyTech创始人空界(花名)表示。

FancyTech目前是自研视频和图像模型,聚焦于ToB,为商家生成基础素材,替代基础拍摄的部分,如对商品、物品、模特等的拍摄。空界在论坛上提到,FancyTech去年营收接近1000万美元,今年预计会到两三千万美元。

“我们觉得现在就是很好的应用时间点,”谈到应用落地,空界表示,“要赚钱,要留在牌桌上,能够保证有这样的收入,当不断有新的技术涌现出来的时候,我们在这个上面叠加,同时能够获得我们的特色。”

Morph AI创始人徐怀哲认为,不确定性是创业的巨大机会和意义。“任何一个大公司都是从最开始成长起来的,留给他们的机会是每一个技术浪潮更新的时候,商业模式有巨大不确定性,如果知道答案一步一步往前走,这一定是一个大厂大公司的机会。”

“赶热点是一回事儿,但是更多的还是要产生实际价值。”就今年视频生成赛道的火热,高一钊认为,追随赛道顶流去跟进产品和投入是必然的,但国内也需要形成自己的一套打法和逻辑,在技术和资源上可能暂时落后,但在落地应用上,我们仍然有场景优势。

“AI领域的技术一旦开放,大家复制起来没有想象中那么困难,所以核心竞争点还是在应用上,在技术上差不多的情况下,怎么能深耕到某个领域,解决用户的真实需求。”高一钊认为,应用落地是全世界AI从业者都要回答的问题。

目前,智子引擎第一个选择的落地场景是城市巡检。“无人机等设备会拍下来一些视觉内容,将这些视觉内容传回给我们的大模型进行分析。”高一钊表示,在这样的场景下,大模型的通用性具有的优势是,能解决复杂真实环境的各种突发情况,如下雨刮风的天气情况,摄像头角度不对了等等,相比以往小参数的AI软件,大模型适用性更广。

就C端来看,陈剑毅判断,短期内没有诞生一个AI视频平台级的机会,“AI版的抖音目前来看不太可能”。但如果目光看向产业仍然有机会,他判断,现在AI视频的机会点不是传统的影视内容形式,而是在生成空镜素材、各种MV、故事绘本、网文短剧等方面。

“比如一个企业想拍宣传片,里面需要插入两三段自然风光,这时候就不需要做一些内容的实拍,用AI视频生成很快就能生成。” 陈剑毅认为,短期内很明显可以看到AI视频生成对各种空镜素材是很大的帮助,此外,在教学中,学生只要在提示词里面输入“我想看一看冰山融化的过程”,这时候视频生成就可以将复杂的物理知识通过直观视频展示出来。

井英科技创始人朱江有个有趣的类比,他认为现在的AI生成式时代,有点像寒武纪生命大爆发的时候。“今天很多动物的门类都是寒武纪大爆发的时候突然出现的,那个时代任何一个物种如果考虑未来能不能生存下去,其实都很难。”他提到,当时很大的变化是有一类生物突然进化出了眼睛,他们就取得了阶段性优势。

如何存活?朱江认为,创业公司能不能在新的生成式时代保持“Tire1”技术的水准和理解很重要,不管是做模型还是做应用,“因为新的机会和新的技术发展速度很快,如果等到成熟的时候再理解,可能作为一个创业公司来说商业机会就错过了。”

(本文来自第一财经)

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
跟别人聊天不知道聊什么?适当运用热点话题,再也不怕无话可说..
我们都知道,任何的人际交流,都需要通过话题去实现自己的沟通目的。如果..
这大概是“最烧”感情的聊天方式了,看了真想让他们赶快闭嘴..
关键词:女朋友说和我沟通不来问:我们都是23岁左右,和女朋友都是人力资..
想聊天又不懂得找话题?按照这个方法去聊,你也能做到滔滔不绝..
对于聊天话题,很多人都会觉得这是一个问题。因为他们认为,只有那些让人..
“闲聊”APP涉赌被查,用户:钱已无法取出
记者 | 郑超前12月24日,舟山网警巡查执法在微博上发布案情通报称,今年5..
可以用 Instagram 聊天了,新版引入即时通讯功能
Instagram中的 Direct(类似私信功能)功能一直不太显眼,长久以来,我们..
高情商的5个万能聊天公式,怪不得人缘越来越好,值得收藏..
高情商的人在用的五个万能聊天公式,怪不得人缘越来越好,值得收藏。会聊..
聊天时怎样接话,才能让对方觉得我懂他
​关键词:沟通的深度题主:女​问:冷爱您好,希望你能帮帮我,我26岁,..
高情商的人,喜欢用这4种聊天方式
01所谓情商高,就是会说话。道理显而易见,但是如何说话?很少有人告诉你..
微信“仅聊天”功能上线:戳穿了成年人的社交真相
文 | 夕夕酱· 主播 | 安东尼十点读书签约作者前几天,微信更新了。微信..
关于作者
舞月(普通会员)
文章
831
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40386 企业收录2981 印章生成229790 电子证书1009 电子名片58 自媒体46438

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索