图源:网络
但显然,OpenAI已经找到了解决这一问题的方法,在MattVidPro所展示的图片中,新平台在处理相似任务时的表现可以说非常炸裂。无论是生成写有博主ID的海报,还是生成《GTA5》的游戏盒子全都不在话下,并且图像中的主体文字内容完全没有出错。
图源:Youtube
除此之外,在面对较为复杂的提示词时,相比于Midjourney,OpenAI新平台所生成的图像内容显然更接近提示词的描述。这里一个典型的例子是根据以下提示生成图像:“在一场自行车比赛中,一名粉色小丑正在与一只熊猫击掌。自行车是由奶酪制成的,地面非常泥泞。他们在一个多雾的森林里骑车,熊猫很生气。”
在Midjourney所给出的四张作品中,一只熊猫没有骑车,而其余三只的座驾都是没有出现奶酪元素的摩托而非自行车,并且四张图片中均没有出现小丑角色,熊猫的表情看起来也与生气毫不沾边。
图源:Youtube
而OpenAI平台在相同任务上的表现则无需多言,所生成作品包含了提示中的几乎全部细节。
图源:Youtube
看完以上案例,有人可能会说OpenAI新平台生成的图像似乎在真实度和画面细节方面并不出彩,甚至有些依靠“Q版”图耍小聪明的嫌疑。但这其实只是由于在提示中未规定画面风格的缘故。在生成写实图像方面,新平台的能力也完全不亚于目前的主流文生图工具。
图源:Youtube
在以上的两个案例中,我们不难看出,无论是油画风格图像“公牛”的画面质感和笔触细节,亦或是写实风格图像“水中少女”的光效、少女面部的水渍呈现等,两幅图像的逼真度和细节处理也均达到了业内顶尖水准。
2、或采用全新生成模型除了图像以外,关于OpenAI正在测试的这个新图像生成平台,网上几乎没有出现其余的任何消息。但根据OpenAI于3月所发表的论文,不少专业人士推测,该平台很可能利用了全新的“一致性模型”而非目前业内主流的“扩散模型”。
图源:Youtube
不难看出,如今的科技巨头们在人工智能方面的追求已不再满足于单纯的语言模型,而是将攫取的枝杈伸展到了更广阔的领域。无论是OpenAI正在测试的全新AI生成图平台,亦或是Meta刚刚开源的文生音乐模型Audiocraft,都表明着人工智能的未来将在更丰富的模态上开花结果。
参考链接:https://www.youtube.com/watch?v=koR1_JBe2j0
https://analyticsindiamag.com/openais-secret-image-generation-tool-to-debut-soon/
https://the-decoder.com/heres-how-openais-dall-e-3-could-leapfrog-the-competition/
来源: 51CTO技术栈
相关文章
猜你喜欢