视频生成混战：在“GPT-3”时代，“大家看不懂的时候要先上”-脚本导航

> 自媒体 > （AI）人工智能 > 视频生成混战：在“GPT-3”时代，“大家看不懂的时候要先上”

视频生成混战：在“GPT-3”时代，“大家看不懂的时候要先上”

来源：第一财经

2025-02-06 15:30:07

288

管理

视频生成有可能是2024年大模型最火的赛道。

在WAIC（世界人工智能大会）上，快手展台隐藏在展馆边缘，快到闭馆的时间，记者在其视频生成模型“可灵”的展位参观，几次被热情的提问者挤开，感兴趣的参观者们围着工作人员抛出各类问题，闭馆音乐响起时，这种热情丝毫没有减少，直到工作人员关闭设备开始“赶人”。

这把火最初是由Sora点燃的，今年2月，OpenAI发布的视频大模型Sora引发轰动，宣告了视频领域“百模大战”的开始。今年以来，国外有Runway、Pika、LumaAI，国内有爱诗科技PixVerse、生数科技Vidu、快手可灵等，大模型“卷”的方向已经从文字、图片来到视频。

不过，视频生成还处于一个早期阶段，技术路线尚未达成共识、生成过程难以控制、生成效果离商业标准还有距离都是问题，不少行业人士都将其与语言、图像模型的早期阶段作类比。

新加坡南洋理工大学助理教授刘子纬认为，视频生成处于大语言模型GPT-3左右的时代，那时距离3.5和ChatGPT的爆发点还有半年左右的时间。智子引擎CEO高一钊则认为，目前的视频生成有点像图像生成的2022年前夕，Stable Diffusion开源之前，因为视频生成领域目前还没有一个特别厉害的开源“Sora”发布。

不少创业者已经开始探索落地，毕竟，等成熟了再做就晚了，过去每一轮新技术出现，“都是在大家看不懂的时候先上”。

高一钊猜测，Runway这样的效果主要是通过针对性地数据训练达成的。“Runway一开始就做了非常多专门训练光影的数据，这其实就是产品方向，团队认为这个产品要真正解决需求，光影必须要自然，所以他们会就很多针对性的方向进行训练。”他认为，产品层和技术层是两套思维。

在视频生成这一领域中，刘子纬未来希望探索“视频生成牛顿第一定律”。他提到，对语言模型来说，目前投入多大算力、用多少数据就能获得多大增益，这种投入产出比是能算出来的，对资本方、产业和应用都是很好的点，但是对于视频生成和多模态来说，目前还没有很明确的标准，多大算力能得到多大提升，这是很本质的问题。此外，在架构方面，自回归或者DiT是否一定是终局，训练成本能否降低都是待探索的问题。

“在大家看不懂的时候先上”

在一场论坛中，谈及视频生成的商业模式，五源资本副总裁石允丰较为谨慎，他判断，就现在视频生成的效果来说，“在流沙上建城堡非常有挑战”，技术底座并没有稳固下来，这时候找PMF（产品市场契合点）挑战很大。

“普通人也能用的视频生成工具，会观察到用户是非常不忠诚的，在不同APP之间跑得非常快。Luma发布了之后4天之内获得了100万用户，这100万用户之前或多或少都已经用过PIika，意义不大。”石允丰认为，今天视频生成是有创作者的，但问题在于，较成熟的内容消费还没出来。

相比投资方的观望，更多的创业者则是另一种“实干派”。

“过去每一轮新的东西出来，绝对不是等成熟了再来做，这样就晚了，都是大家看不懂的时候先上。”FancyTech创始人空界（花名）表示。

FancyTech目前是自研视频和图像模型，聚焦于ToB，为商家生成基础素材，替代基础拍摄的部分，如对商品、物品、模特等的拍摄。空界在论坛上提到，FancyTech去年营收接近1000万美元，今年预计会到两三千万美元。

“我们觉得现在就是很好的应用时间点，”谈到应用落地，空界表示，“要赚钱，要留在牌桌上，能够保证有这样的收入，当不断有新的技术涌现出来的时候，我们在这个上面叠加，同时能够获得我们的特色。”

Morph AI创始人徐怀哲认为，不确定性是创业的巨大机会和意义。“任何一个大公司都是从最开始成长起来的，留给他们的机会是每一个技术浪潮更新的时候，商业模式有巨大不确定性，如果知道答案一步一步往前走，这一定是一个大厂大公司的机会。”

“赶热点是一回事儿，但是更多的还是要产生实际价值。”就今年视频生成赛道的火热，高一钊认为，追随赛道顶流去跟进产品和投入是必然的，但国内也需要形成自己的一套打法和逻辑，在技术和资源上可能暂时落后，但在落地应用上，我们仍然有场景优势。

“AI领域的技术一旦开放，大家复制起来没有想象中那么困难，所以核心竞争点还是在应用上，在技术上差不多的情况下，怎么能深耕到某个领域，解决用户的真实需求。”高一钊认为，应用落地是全世界AI从业者都要回答的问题。

目前，智子引擎第一个选择的落地场景是城市巡检。“无人机等设备会拍下来一些视觉内容，将这些视觉内容传回给我们的大模型进行分析。”高一钊表示，在这样的场景下，大模型的通用性具有的优势是，能解决复杂真实环境的各种突发情况，如下雨刮风的天气情况，摄像头角度不对了等等，相比以往小参数的AI软件，大模型适用性更广。

就C端来看，陈剑毅判断，短期内没有诞生一个AI视频平台级的机会，“AI版的抖音目前来看不太可能”。但如果目光看向产业仍然有机会，他判断，现在AI视频的机会点不是传统的影视内容形式，而是在生成空镜素材、各种MV、故事绘本、网文短剧等方面。

“比如一个企业想拍宣传片，里面需要插入两三段自然风光，这时候就不需要做一些内容的实拍，用AI视频生成很快就能生成。” 陈剑毅认为，短期内很明显可以看到AI视频生成对各种空镜素材是很大的帮助，此外，在教学中，学生只要在提示词里面输入“我想看一看冰山融化的过程”，这时候视频生成就可以将复杂的物理知识通过直观视频展示出来。

井英科技创始人朱江有个有趣的类比，他认为现在的AI生成式时代，有点像寒武纪生命大爆发的时候。“今天很多动物的门类都是寒武纪大爆发的时候突然出现的，那个时代任何一个物种如果考虑未来能不能生存下去，其实都很难。”他提到，当时很大的变化是有一类生物突然进化出了眼睛，他们就取得了阶段性优势。

如何存活？朱江认为，创业公司能不能在新的生成式时代保持“Tire1”技术的水准和理解很重要，不管是做模型还是做应用，“因为新的机会和新的技术发展速度很快，如果等到成熟的时候再理解，可能作为一个创业公司来说商业机会就错过了。”

(本文来自第一财经)

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

理解并实现 GPT-1、GPT-2 和 GPT-3 架构

1个月前

全球最强模型一夜易主？Anthropic声称新模型Claude 3性能超越GPT-4接近人类｜钛媒体AGI

1个月前