GPT-4+物理引擎加持扩散模型，生成视频逼真、连贯、合理-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4+物理引擎加持扩散模型，生成视频逼真、连贯、合理

GPT-4+物理引擎加持扩散模型，生成视频逼真、连贯、合理

来源：机器之心Pro

2023-11-28 20:54:14

275

管理

机器之心报道

编辑：赵阳

扩散模型的出现推动了文本生成视频技术的发展，但这类方法的计算成本通常不菲，并且往往难以制作连贯的物体运动视频。

为了解决这些问题，来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。GPT4Motion 结合了 GPT 等大型语言模型的规划能力、Blender 软件提供的物理模拟能力，以及扩散模型的文生图能力，旨在大幅提升视频合成的质量。

篮球从空中旋转着落下：

在风中飘动的布料。图 5 和图 6 验证了 GPT4Motion 在生成在风力影响下运动的布匹的能力。利用现有的物理引擎进行模拟，GPT4Motion 可生成不同风力下布的波动和波浪。在图 5 展示了一面飘动旗帜的生成结果。在不同风力下，旗帜呈现出复杂的波纹和波浪图案。图 6 显示了不规则布料物体 —— T 恤，在不同风力下的运动情况。受织物弹性和重量等物理特性的影响，T 恤发生了抖动和扭曲，并出现了明显的褶皱变化。

水倒入马克杯。图 7 展示了三段将不同粘度的水倒入马克杯的视频。当粘度较低时，流动的水与杯子中的水碰撞融合，在表面形成复杂的湍流。随着粘度的增加，水流变得缓慢，液体开始粘在一起。

如图 8（第一行）所示，AnimateDiff 和 Text2Video-Zero 生成的视频在旗帜上出现了伪影 / 扭曲，而 ModelScope 和 DirecT2V 则无法平滑地生成旗帜在风中飘动的渐变。但是，如图 5 中间所示，GPT4Motion 生成的视频可以显示出旗帜在重力和风力作用下皱纹和波纹的连续变化。

如图 8（第 2 行）所示，所有基线的结果都与用户提示不符。虽然 AnimateDiff 和 ModelScope 的视频反映了水流的变化，但它们无法捕捉到水倒入杯子的物理效果。而由 Text2VideoZero 和 DirecT2V 生成的视频则创造了一个不断抖动的杯子。相比之下，如图 7（左）所示，GPT4Motion 生成的视频准确地描述了水流与马克杯碰撞时的激荡，效果更加逼真。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

人工智能chat GPT

7个月前

比尔盖茨：GPT-5不会比GPT-4好多少，生成式AI已达到极限

7个月前