> 自媒体 > (AI)人工智能 > 文本秒生成图像,震惊业界!详解OpenAI两大AI模型
文本秒生成图像,震惊业界!详解OpenAI两大AI模型
来源:智东西
2023-05-16 04:57:51
351
管理

Dali代表作《记忆的永恒》和机器人总动员海报。

在博客上,OpenAI也大秀了一把DALL·E的“超强想象力”,随意输入一句话,DALL·E就能生成相应图片,这个图片可能是网络上已经存在的图片,也可能是根据自己的理解“画”出的。

输入文本分别是:穿芭蕾舞裙遛狗的萝卜、牛油果形状的扶手椅、将上部的图片素描化

DALL·E是如何实现先理解文字,再创造图片的呢?

那首先要从理解token开始,语言学中对token的定义是词符,或者标记。对于英语来说,每个字母就是一个token,每一个单词就是一个tokens。

但在NLP中,tokens并不一定代表完整的单词,如re、ug等没有实际意义的字母组合也算一个tokens。

在最早提出Transformer架构的论文《Attention is all you need》里,就提到了BPE(Byte-Pair Encoding)编码方法,简单来说,BPE就是通过分析训练集中每个单词的组成,创建一个基础词汇表,词汇表里涵盖了一定数量最常用的tokens。

模型中tokens的数量是超参数,也就是训练模型中人为规定的。

DALL·E同时包含着BPE编码的文本和图像词汇表,分别涵盖了16384、8192个tokens。

当需要生成图片时,它以单一数据流的形式,接收1280个文本和图像的tokens(文本256个tokens,图像1024个tokens),建立回归模型。

与大多数Transformer模型一样,DALL·E也采用自注意力机制(Self-Attention),分析文本内部的联系。

在DALL·E的64层自注意层中,每层都有一个注意力mask,就是为了使图像的每个tokens都能匹配文本tokens。

OpenAI也表示,更具体的架构和详细训练过程会在之后的博客中公布。

二、普适的DALL·E:从改变物体关系到创造“不存在”

比起长篇累牍地描述自己模型的优越性,OpenAI则是用大量实测案例证明了自己。

1、改变单个物体的某个属性

如动图所示,我们可以通过简单地改变按钮选项,将钟改为花盆,再将绿色改为黄色,再将三角形改为正方形。

输入文本:日出时,坐在田野上的水豚的绘画像。

6、不存在的物品

DALL·E还具有将完全不同的物品合成起来的能力,创造一些现实世界不可能出现的物体。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
天泰悠然(普通会员)
文章
375
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186786 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索