编辑:编辑部
【新智元导读】AI Agent要淘汰人类导演了!初创公司Fable利用AI智能体,直接拍出了一集《南方公园》,AI的脑洞,真的不输原作。AI Agent,又给我们带来了亿点点震撼——AI智能体直接晋升导演,拍出了一集《南方公园》!
没错,编剧、动画、导演、语音、编辑……剧集制作的全流程,都是由AI完成。
初创公司Fable新发布的节目统筹智能体(Showrunner),如同一声惊雷炸响。
项目的灵感,就来自于此前斯坦福爆火的西部世界虚拟小镇论文,其中25个AI智能体居住在包含学校、医院、家庭的沙盒虚拟城镇中。
而在这次的《南方公园》中,同样是一群AI角色通过复杂的社交互动来推动自己的日常生活,每个人都有自己独特的背景故事、个性和动机。
论文地址:https://fablestudio.github.io/showrunner-agents/
在多智能体无梯度架构的驱动下,每个角色的完整经历都会被存储为自然语言。随着时间的推移,这些记忆会被合成更高层次的反射,随时动态检索,来实时计划每个角色的行为。
而人类导演只需要给出一个高层次的构思提示(标题、概要、事件),这些AI智能体就会开始「自导自演」了!
其中,两个在《南方公园》数据集(约1200个角色和600张场景)上训练的自定义扩散模型,可以生成新角色和新场景,一个超分辨率模型(R-ESRGAN-4x -Anime6B)可以将场景放大。
语音克隆AI(如ElevenLabs),可以给角色即时配音。
英伟达首席AI科学家Jim Fan兴奋断言:多智能体模拟,将是新兴智能的下一个前沿!
「作为独立对齐研究的先锋,让真正的AI写下自己的背景故事,意识到自己是有知觉的——这就是目前的现实。」
有人觉得,这似乎是AI对人类喜剧的蹩脚模仿……
AI写的剧本,行不行?
负责人介绍说,项目的目标一直都是AGI,只有AGI,才是真正活着的AI,AI聊天机器人还远远算不上。
它们会在模拟世界中过着真实的日常生活,还会随着时间推移而不断成长。
智能体写出的剧情,是什么水平?让我们来赏析一下。
在视频开头,会介绍一段Westland编年史。
一家邪恶的公司Bizney创造出一只机器猪作为人类的AI伴侣,这只机器猪有严重的种族主义倾向,使公司陷入了一场公关噩梦。
生活在不确定性中
多智能体模拟,能让内容产品与IP故事世界更加一致。用户可以利用角色的个人经历、目标和情感、以及模拟事件和地点等数据来生成相关的场景和图像资产。
基于IP的模拟还为用户提供了他们熟知的故事背景,使用户能够更轻松地对生成的故事进行判断。
此外,通过人机交互,让用户对智能体的对话系统进行控制、观察和交流,从而让智能体学会用户的愿望和意愿,然后智能体在生成回复的时候就可以照着用户的愿望和期待来生成。
但是 使用和prompt大型语言模型作为该过程的一部分可能会带来「几个挑战」。
某些像幻觉这样增加不确定性的效应,可以为故事增加创造性,它们就像创作过程中的「幸运意外」。如果不过度破坏逻辑,这些「意外」可以增强用户体验。
所以合理引入一些随机性和不确定性,可以产生积极的创造性效果,增强用户体验。关键是要保持逻辑自洽、不要完全破坏剧情,让系统可以从中恢复。
但是,最终的输出基本上是通过按下按钮瞬间生成的。这种瞬时生成过程会给用户带来即时满足,使他们的多巴胺喷涌......
这种奖励机制在很长一段时间内有助于维持多步骤的创作过程,但当前的界面、奖励频率和缺乏进展(陷入无限循环)可能会导致负面影响,例如挫败感、理想—实际生成之间的鸿沟或失去对创作过程的控制。
这种鸿沟是有利于即时满足的行为偏见造成的,这对长期创作的目标来说可能是有害的。
虽然我们不通过界面直接解决这些问题,但是在模拟中对过程进行情景化设定、采用输入、输出之间的时间控制将有助于减轻老虎机效应对创作的负面影响。
此外,我们认为在模拟过程中为角色设定discriminator(判别器),让他们参与创作评估过程,也是一个缓解老虎机效应的方法。
例如让一个智能体反思他被分配的角色,或者他应该表演的场景。
最近模仿慢思维能力的方法,如提示链工程(见Auto-GPT)就显示了很有前景的结果。
大语言模型可以在多步骤过程中充当自己的鉴别器。这能显著改善它在不同情境下的推理能力,例如解决数学问题。
在此项研究中,研究者大量使用GPT-4来影响模拟中的智能体,以及生成南方公园剧集的场景。
由于大多数南方公园剧集的转录是GPT-4训练数据集的一部分,它已经对角色的个性、谈话风格以及节目的整体幽默感有很好的把握,无需再进行定制微调。
而我们通过多步创作过程来模拟慢思维。为此,我们使用不同的提示链来比较和评估不同场景的事件,以及它们如何推动整个故事朝着令人满意的、与IP一致的结果发展。
我们尝试通过提示链生成剧集,但故事生成是一个高度不连续的任务。这些是内容创作无法以渐进或连续的方式完成,而是需要一个「恍然大悟」的想法,来解决任务的进展上一个不连续的飞跃。
内容生成涉及发现或发明一种看待或构建问题的新方法。这可以启用剩余内容的生成。
不连续任务的例子有,需要开创性的观点或创造性应用公式的数学问题,撰写笑话或谜语,想出科学假说或哲学论点,或开拓出一种新的写作流派或风格。
扩散模型
Diffusion模型的运作原理是随着时间的推移,逐渐从数据中添加或去除随机噪声,以生成或重构输出。图像开始作为随机噪声,经过许多步骤后逐渐变换成一个连贯的图片,反之亦然。
为了训练我们定制的Diffusion模型,我们收集了一个全面的数据集,包含来自动画剧《南方公园》约1200个角色和600个背景图像。这个数据集为模型学习该剧的风格提供了原始材料。
对于未来的2D交互作品,训练能生成基于矢量输出的定制Transformer模型将具有以下几个优势。
与基于像素的图像不同,矢量图形在调整大小或缩放时不会降低质量,因此可以提供无限分辨率的潜力。这将使我们能够生成无论以何种比例查看都能保持质量和细节的图像。
此外,基于矢量的形状已经分成单独的部分,解决了基于像素的具有透明度和分割的后处理问题。
这简化了生成资产集成到过程化世界的构建,以及动画系统中的复杂性。
Showrunner系统负责为每个场景选派角色,以及故事应该如何通过情节模式进行。
每个场景都与一个情节字母(例如A,B,C)相关联,然后由Showrunner在一个剧集的过程中交替不同的角色组,并跟随他们的各自故事线,以保持用户的参与度。
最后,每个场景只定义了地点、角色和对话。在舞台系统和AI摄像系统进行初始设置后,根据情节模式(例如ABABC)回放场景。
每个角色的声音都已经提前克隆,并且每一条新的对话线都会即时生成语音剪辑。
模拟创造性思维
如前所述,模拟产生的数据,既为撰写初始提示的用户,也为与LLM进行提示链交互的生成故事系统,提供了创新的燃料。
提示链是一种技术,它通过向语言模型提供一系列相关的提示,来模拟持续的思维过程。有时,它可以在每一步中扮演不同的角色,对前一个提示和生成的结果进行判别。
在这个例子中,我们会模仿一个非连续的创造性思维过程。
例如,要创建14个不同的《南方公园》场景,可以先提供一个概括性的提示,勾勒出总体叙事,然后再提供具体的提示,详细说明和评估每个场景的演员、地点和关键情节。
这就模仿了人类头脑风暴的过程,即通过多个往往是不连续的步骤,对创意进行构建和完善。
通过利用LLM的生成能力和提示链提供的迭代完善功能,我们可以有效地构建出动态、详细和引人入胜的叙事。
此外,我们探索了新的概念,如情节模式和戏剧操作符(DrOps),从而增强整个剧集的结构,同时也增强了每个场景之间的连贯性。
反转、预示、悬念等修辞手法,很难作为提示链的一部分进行评估。没有写作背景的用户在判断这些修辞手法的有效性和适当的位置上,也会有同样的困难。
为此,研究者提出了一种程序化的方法,将这些特定于节目的模式和修辞手法作为情节模式和DrOps,程序化地注入到提示链中。这些模式和DrOps可以在行为结构、场景结构和单个对话的层面上操作。
他们正在研究未来的机会,以提取针对每个IP和格式的戏剧指纹,并利用这些数据来训练定制的SHOW-1模型。
这个数据集与人类的整体反馈相结合,可以在用户和指定的IP之间进一步对齐语调、风格和娱乐价值,同时提供一个高度自适应和互动的故事系统,作为正在进行的模拟的一部分。
谁在推动这个故事?
在这个方法中,故事生成过程是项目 、用户和GPT-4共同负责的。
每个参与者各自的优缺点,这取决于我们希望他们在整个故事中扮演怎样的角色。他们的角色是独特的,他们的贡献可以有不同的权重。
The Simulation通常提供基础的IP-based上下文、角色历史、情绪、事件和地点,为初始的创新过程提供种子。
而用户引入自己的意向性,对智能体施加行为控制,并提供启动生成过程的初始提示。用户也充当最后的鉴别器,在过程结束时评估生成的故事内容。
另一方面,GPT-4则充当主要的生成引擎,根据它从用户和Simulation那里收到的提示创建和推断场景和对话。
这是一个共生的过程,每个参与者的优点都有助于构建一个连贯、吸引人的故事。
重要的是,我们的多步骤方法,以提示链的形式,也提供了检查和平衡,减轻了不希望的随机性的可能性,并允许与IP故事世界更一致的对齐。
参考资料:
https://fablestudio.github.io/showrunner-agents/?mc_cid=f9d1eb56dc&mc_eid=bbcd57583d
https://twitter.com/fablesimulation/status/1681352904152850437
相关文章
猜你喜欢