Wolfram 接着解释 ChatGPT 如何通过“对下一个单词进行排名”来生成句子。 为了获得排名的概率表,ChatGPT 首先必须检索底层“语言模型(language model)”神经网络。
而且,以同样的方式,不仅仅是“配对”,长文本的情况下的“组合概率”,如果有足够量的文本,也可以得到推定值。这样的话,即使生成了随机的单词,句子也会变得更加逼真。
同样,ChatGPT 根据大型文本数据(而不是字母)推测“单词的频率”,并生成每个单词分别随机选择的句子。 然而,就像我们在这里从字母中生成单词一样,概率本身并不能生成有意义的句子。 因此,与字母一样,要考虑“单词对”或多种组合的概率,以更接近更可能的句子。
Wolfram 解释了“ChatGPT 的做了什么”,但表示很难解释“它是如何工作的”。 例如,如果神经网络识别出猫的图像,那么它的难度是可以理解的,但是没有办法具体描述网络中实际发生的过程,因为它在一个计算上的黑匣子中处理这个不可见过程。
根据 Wolfram 的说法,ChatGPT 是一个权重为 1750 亿的庞大神经网络,其最大的特点是谷歌的擅长语言理解任务的“Transformer”神经网络架构。 Transformer是作为翻译模型开发的,但由于图像等参数可以在翻译过程中以与语言相同的方式映射,因此可以通过引入诸如“注意”序列的一部分等概念来“模块化”事物。 您可以在以下文章中了解有关 Transformer 如何在机器学习方面取得突破的更多信息:
The generative AI revolution has begun—how did we get here? | Ars Technicahttps://arstechnica.com/gadgets/2023/01/the-generative-ai-revolution-has-begun-how-did-we-get-here/
根据以上内容,Wolfram 将ChatGPT的实际工作分为3个阶段进行说明。 首先,我们获取一组与传统文本对应的标记,并找到相应的规则作为数字数组。 然后,通过以“标准神经网络方式”操作规则并让值在网络中的连续层中“传播”来生成新规则。 并采用此规则并从中生成一个包含大约5万个值的数组。 由于此数组是显示各种标记可能性的概率,因此得出组合单词的概率。
根据 Wolfram 的说法,所有这些都是由神经网络实现的,一切都只是从训练数据中学习的,所以除了整个架构之外,没有明确设计任何东西。 但是,整个架构的设计反映了神经网络的各种经验和知识。
该架构的工作原理是首先将输入的无数标记转换为“嵌入向量”,而“注意”功能是 Transformer 的主要功能,可让您“仔细回顾”一系列文本以理解单词组合并营造整体统一感。 在经历了这些注意过程之后,Transformer将一系列标记转换为最终集合,因此 ChatGPT 获取集合,对其进行解码,并将其创建为下一个单词的概率列表。 正如 Wolfram 所解释的那样,以下是 ChatGPT 的工作原理,“它可能看起来很复杂,但它实际上由简单的元素组成,其中神经网络接受数字输入的集合,并将它们与特定权重组合以创建一个列表。”
最后,Wolfram说:“最终值得注意的是,所有这些操作都可以以某种方式协同工作,以完成生成文本这一优秀的人性化任务。 这可以被视为一项科学发现,像ChatGPT这样的神经网络可能能够捕捉到人类大脑为生成语言所做的事情的本质。”
相关文章
猜你喜欢