ChatGPT为啥这么强：万字长文详解 by WolframAlpha之父-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT为啥这么强：万字长文详解 by WolframAlpha之父

ChatGPT为啥这么强：万字长文详解 by WolframAlpha之父

来源：量子位

2023-11-01 12:36:41

228

管理

ChatGPT 发自凹非寺量子位 | 公众号 QbitAI

Wolfram语言之父Stephen Wolfram，又来给ChatGPT背书了。

上个月，他还专门写过一篇文章，力荐自家的计算知识搜索引擎WolframAlpha，希望能跟ChatGPT来个完美结合。

大概表达的意思就是，“你计算能力不达标，那可以把我的’超能力’注入进去嘛”。

值得注意的是，当ChatGPT完成像写文章这样的任务时，它实际上只是一遍又一遍地询问：“在已有的文本的基础上，下一个词应该是什么？”——并且每次都会添加一个词（更准确地说，如我所解释的，它添加一个“token”，这可能只是单词的一部分，这就是为什么它有时会“创造新词”的原因）。

在每一步中，它都会得到一个带有概率的单词列表。但是，它应该选择哪个单词来添加到它正在写作的文章（或任何其他东西）中呢？

有人可能认为应该选择“排名最高”的单词（即被分配最高“概率”的单词）。但这就是一些神秘的事情开始悄悄发生的地方。因为由于某种原因——也许有一天我们会有一种科学式的理解——如果我们总是选择排名最高的单词，我们通常会得到一篇非常“平淡”的文章，从不显示任何创造力（有时甚至逐字重复）。如果有时（随机地）我们选择较低排名的单词，可能会得到一篇“更有趣”的文章。

这里存在随机性意味着，如果我们多次使用相同的提示，很可能每次都会得到不同的文章。与voodoo理念一致，过程中会有一个特定的所谓“温度”（temperature）参数，它决定较低排名的单词会被使用的频率，对于文章生成，这个“温度”最好设置为0.8。值得强调的是，这里没有使用“理论”；这只是已被证明在实践中起作用的事实。例如，“温度”概念之所以存在，是因为指数分布（来自统计物理学的熟悉分布）恰好被使用，但至少就我们所知，它们之间没有“物理”联系。

在继续之前，我应该解释一下，为了表达的目的，我大多数时候不会使用ChatGPT中的完整系统；相反，我通常会使用一个更简单的GPT-2系统，它具有很好的特性，即它足够小，可以在标准台式计算机上运行。因此，我所展示的几乎所有内容都将包含明确的Wolfram语言代码，您可以立即在计算机上运行。

例如，下面这张图展示了如何获得上述概率表的。首先，我们必须检索底层的 “语言模型 “神经网络：

稍后，我们将深入了解这个神经网络，并讨论它是如何工作的。但目前为止，我们可以将这个“网络模型”作为一个黑盒应用到我们的文本中，并根据模型认为应该遵循的概率，请求前5个单词：

获取结果后，会将其转换为显式格式化的“数据集”：

而每次这样做，都会有不同的随机选择，对应的文本也会不同。例如以下这5个例子：

这是“狗”的情况：

可以通过强制“单词长度”的分布与英文一致，来更好地分割“单词”：

通过足够多的英语文本，我们不仅可以很好地估计单个字母或字母对（2-gram）的概率，还可以估计更长的字母组合的概率。如果我们使用逐渐变长的n-gram概率来生成“随机单词”，我们会发现它们逐渐变得“更加真实”。

在每个注意力块中，都有一组“attention heads”（GPT-2有12个，ChatGPT的GPT-3有96个），每个attention head都独立地作用于embedding向量中不同值的块。（是的，我们不知道将embedding向量拆分成若干部分的好处，也不知道它们的不同部分的含义；这只是已被发现可行的技术之一。）

那么，attention head的作用是什么呢？基本上，它们是一种“回顾”token序列（即已经生成的文本），并以一种有用的形式“打包”历史信息以便于找到下一个token的方式。在上文中，我们提到过使用二元概率来基于它们的前一个token选择单词。Transformer中的“注意力”机制允许对更早的单词进行“注意力”，从而可能捕捉到例如动词引用在句子中出现在它们前面多个词的名词的方式。

具体而言，attention head的作用是重新组合与不同token相关的embedding向量的块，并赋予一定的权重。因此，例如，GPT-2中第一个注意块中的12个attention head对于上面的“hello，bye”字符串具有以下（“回顾token序列一直到开头”的）“重新组合权重”模式：

经过注意力机制的处理，得到了一个“重新加权的embedding向量”（对于GPT-2长度为768，对于ChatGPT的GPT-3长度为12,288），然后通过一个标准的“全连接”神经网络层。很难理解这一层在做什么。但是这里是它所使用的768×768权重矩阵的绘图（这里是GPT-2）：

那么，经过所有这些注意力块后，Transformer的净效应是什么？本质上，它将token序列的原始embedding集合转换为最终集合。而ChatGPT的特定工作方式是选择该集合中的最后一个embedding，并对其进行“解码”，以产生下一个token的概率列表。

因此，这就是ChatGPT内部的概述。它可能看起来很复杂（其中许多选择都是不可避免的、有些任意的“工程选择”），但实际上，最终涉及的元素非常简单。因为最终我们处理的只是由“人造神经元”构成的神经网络，每个神经元都执行将一组数字输入与某些权重组合的简单操作。

ChatGPT的原始输入是数字数组（到目前为止token的embedding向量），当ChatGPT“运行”以生成新的token时，这些数字只是通过神经网络的层“传播”，每个神经元“做自己的事情”并将结果传递给下一层的神经元。没有循环或“回溯”。所有东西都只是通过网络“前馈”。

这与典型的计算系统（如图灵机）完全不同，后者通过相同的计算元素重复“重新处理”结果。在这里——至少在生成给定输出token方面——每个计算元素（即神经元）只使用一次。

但在ChatGPT中仍然存在某种意义上的“外部循环”，即使是在计算元素中也会重复使用。因为当ChatGPT要生成新token时，它总是“读取”（即将其作为输入）在它之前出现的整个token序列，包括ChatGPT自己先前“编写”的token。我们可以将这个设置视为意味着ChatGPT在其最外层至少涉及一个“反馈循环”，尽管每次迭代都明确可见为在其生成的文本中出现的token。

让我们回到ChatGPT的核心：用于生成每个token的神经网络。从某个层面上说，它非常简单：一个由相同人工神经元构成的集合。网络的一些部分仅由（“完全连接”）神经元层组成，在该层上的每个神经元都连接到前一层上的每个神经元（具有某些权重）。但特别是在其Transformer架构中，ChatGPT具有更多结构化的部分，其中仅特定层上的特定神经元相连。（当然，人们仍然可以说“所有神经元都连接”-但有些神经元的权重为零）。

此外，ChatGPT中的神经网络的一些方面并不是最自然的“同质”层。例如，在一个注意力块中，有一些地方会对传入的数据进行“多份拷贝”，然后每一份都经过不同的“处理路径”，可能涉及不同数量的层，直到后来才重新组合。虽然这可能是一种方便的表示方式，但至少在原则上，总是可以考虑“densely filling in”层，只是让一些权重为零。

如果你看一下ChatGPT的最长路径，大约有400层(核心层)——在某些方面并不是一个庞大的数字。但是有数百万个神经元，总共有1750亿个连接，因此有1750亿个权重。需要意识到的一件事是，每次ChatGPT生成一个新token时，它都必须进行涉及每个权重的计算。在实现上，这些计算可以被组织成高度并行的数组操作，可以方便地在GPU上完成。但是对于产生的每个token，仍然需要进行1750亿次计算（最后还要多一点）——所以，是的，用ChatGPT生成一长段文本需要一段时间也就不足为奇了。

但最终我们还需要值得注意的是，所有这些操作都能以某种方式共同完成如此“类似人类”的生成文本的工作。必须再次强调的是，（至少就我们所知）没有“终极理论原因”可以解释为什么像这样的任何东西应该起作用。实际上，正如我们将要讨论的那样，我认为我们必须将其视为一项-潜在令人惊讶的-科学发现：在像ChatGPT这样的神经网络中，有可能捕捉到人类大脑在生成语言方面所能够做到的本质。

（由于原文篇幅过长，感兴趣的小伙伴可以戳文末链接阅读全文）

One More Thing

或许在打开这篇文章的时候，有些小伙伴已经注意到了一些细微变化：

没错，这篇文章核心内容的编辑，正是ChatGPT！

以及，它自己谈了谈对Stephen Wolfram这篇文章的看法：

参考链接：

[1] https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/[2] https://twitter.com/stephen_wolfram/status/1625611360967983104[3] https://writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

“ChatGPT”狂飙，职业体育人工智能时代来临，你准备好了吗？

7个月前

ChatGPT等能为保险行业所用吗？AI大模型评测报告出炉

7个月前