文本秒生成图像，震惊业界！详解OpenAI两大AI模型-脚本导航

> 自媒体 > （AI）人工智能 > 文本秒生成图像，震惊业界！详解OpenAI两大AI模型

文本秒生成图像，震惊业界！详解OpenAI两大AI模型

来源：智东西

2023-05-16 04:57:51

351

管理

Dali代表作《记忆的永恒》和机器人总动员海报。

在博客上，OpenAI也大秀了一把DALL·E的“超强想象力”，随意输入一句话，DALL·E就能生成相应图片，这个图片可能是网络上已经存在的图片，也可能是根据自己的理解“画”出的。

输入文本分别是：穿芭蕾舞裙遛狗的萝卜、牛油果形状的扶手椅、将上部的图片素描化

DALL·E是如何实现先理解文字，再创造图片的呢？

那首先要从理解token开始，语言学中对token的定义是词符，或者标记。对于英语来说，每个字母就是一个token，每一个单词就是一个tokens。

但在NLP中，tokens并不一定代表完整的单词，如re、ug等没有实际意义的字母组合也算一个tokens。

在最早提出Transformer架构的论文《Attention is all you need》里，就提到了BPE（Byte-Pair Encoding）编码方法，简单来说，BPE就是通过分析训练集中每个单词的组成，创建一个基础词汇表，词汇表里涵盖了一定数量最常用的tokens。

模型中tokens的数量是超参数，也就是训练模型中人为规定的。

DALL·E同时包含着BPE编码的文本和图像词汇表，分别涵盖了16384、8192个tokens。

当需要生成图片时，它以单一数据流的形式，接收1280个文本和图像的tokens（文本256个tokens，图像1024个tokens），建立回归模型。

与大多数Transformer模型一样，DALL·E也采用自注意力机制（Self-Attention），分析文本内部的联系。

在DALL·E的64层自注意层中，每层都有一个注意力mask，就是为了使图像的每个tokens都能匹配文本tokens。

OpenAI也表示，更具体的架构和详细训练过程会在之后的博客中公布。

二、普适的DALL·E：从改变物体关系到创造“不存在”

比起长篇累牍地描述自己模型的优越性，OpenAI则是用大量实测案例证明了自己。

1、改变单个物体的某个属性

如动图所示，我们可以通过简单地改变按钮选项，将钟改为花盆，再将绿色改为黄色，再将三角形改为正方形。

输入文本：日出时，坐在田野上的水豚的绘画像。

6、不存在的物品

DALL·E还具有将完全不同的物品合成起来的能力，创造一些现实世界不可能出现的物体。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI 第四弹：马斯克强调的 TruthGPT 是什么？下个“AK”；微软弃婴，二十年前的 ChatGPT

2023-05-16 04:58

砸下677亿，微软盯上ChatGPT｜钛媒体深度

2023-05-16 04:54

相关文章

ChatGPT为啥这么强：万字长文详解 by WolframAlpha之父

ChatGPT 发自凹非寺量子位 | 公众号 QbitAIWolfram语言之父Stephen Wolf..

移动版ChatGPT终于联网，但微软只想独占其流量 | 最前线..

作者 | 周愚编辑 | 邓咏仪ChatGPT终于全面通网了，但未来的用户，可能会..

ChatGPT的这几个回答，让人细思极恐……

有关逻辑推理、理解判断、语言翻译、思考想象等问题，ChatGPT会如何作答..

中国人自己的ChatGPT在哪里？

近蹭Chat GPT热度的股票非常多，不管是在打A还是在美股。但是他们有哪些..

来自硅谷第3期企业级ChatGPT开发入门实战直播21课-16

BERT（Bidirectional Encoder Representation from Transformers）是一个..

女卫生院长婚内出轨村干部，不雅聊天记录流出，毁人三观..

女卫生院长，本应是一个社会中的精英，她的职责是为村民们提供优质的医疗..

单卡就能跑的大模型等效GPT-3！Meta发布大语言模型LLaMA..

Pine 发自凹非寺量子位 | 公众号 QbitAIChatGPT的热度稍有平息，蛰伏已..

这也太能“考”了！GPT-4通过注册会计师和内审师考试..

【CNMO新闻】人工智能已经深刻地改变了我们的生活方式，成为人们生活中不..

来自硅谷第3期企业级ChatGPT开发入门实战直播21课-9

什么是语言模型？语言模型本身比较简单，语言模型是一个预测词汇或者单词..

关于作者

天泰悠然(普通会员)

文章

375

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

聊天交友软件常用骗局（套路）交友需小心！

10个月前

02

微信聊天时，女人说“哼哼”，10个高情商回复

7个月前

03

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

8个月前

04

介绍一个能够免费使用国内chatgpt的插件wetab

2023/04/27

05

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

10个月前

标签云

成员 网址收录40329 企业收录2981 印章生成186786 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索