ChatGPT的工作原理，看这一篇就够了，小白入门！-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT的工作原理，看这一篇就够了，小白入门！

ChatGPT的工作原理，看这一篇就够了，小白入门！

来源：云华商业频道

2023-05-20 16:08:10

446

管理

例如，OpenAI的GPT模型，所给的语料库是不断增加的。

在预训练期间，模型学习了语言的结构和规律，并且能够理解单词之间的关系和上下文信息。这使得模型能够生成连贯且自然的文本，并在各种自然语言处理任务中表现出色，如文本分类、问答系统等等。

不同版本的GPT的预训练数据量都在惊人地增长，看下面的数据，到了GPT-3的时候预训练的数据量就达到了45TB。

TB什么概念，10的12次方字节,约为1000000000000字节或1024GB。而一个TB又可以储存1000GB的数据。可见，数据量之大。

第三个字母-T，在 ChatGPT 中，T 指的是“Transformer”，是一种广泛应用于自然语言处理任务的深度学习模型。

Transformer 最初是由 Google 在 2017 年提出的，其主要目的是用于机器翻译任务，但很快被证明在许多其他 NLP 任务上也非常有效。

Transformer 的主要特点是能够在处理长序列数据时保持较好的效果，Transformer 采用了一种名为“自注意力机制”(self-attention mechanism)的方法，通过对输入序列中每个元素进行加权聚合，来计算出输出序列的表示。

举个例子：假设我们要训练一个语言模型，给定一段文本中的前几个单词，模型需要预测下一个单词是什么。

为了训练这个模型，我们需要将文本转换成数字形式。比如，将每个单词表示为一个one-hot向量。

如果我们使用传统的神经网络模型，例如全连接神经网络或递归神经网络(RNN)，则需要将每个one-hot向量映射到一个低维向量表示，通常称为词嵌入(word embedding)。

然而，这种方法有一些缺点。

首先，由于one-hot向量是高维的，所以矩阵乘法可能会非常昂贵，特别是在处理大量词汇表时。

其次，传统的神经网络模型可能难以处理长序列，因为它们需要在每个时间步骤上进行计算，而计算的复杂度会随着序列长度的增加而增加。

Transformer模型通过使用自注意力机制来解决这些问题。

自注意力机制允许模型在计算嵌入向量时考虑所有其他单词的信息，而不是只考虑输入序列中的前几个单词。这使得模型可以更好地处理长序列，并且不需要像传统模型一样进行矩阵乘法。

举个例子：当我们要做一道数学题时，通常需要进行多步计算。

如果只使用纸和笔来计算，我们需要反复写下计算过程，将中间结果记录下来，并在最后将它们汇总在一起。而使用计算器，就可以让我们更加方便地完成这些计算步骤。

在这个例子中，我们可以把纸笔比作传统的机器学习算法，而计算器就类似于使用Transformer的机器学习模型。

使用Transformer的机器学习模型，就像使用计算器一样，它可以更快速地完成计算，并且不需要像纸笔一样记录中间结果。

这就是Transformer模型的优势所在，它可以更高效地处理数据，从而提高模型的准确性和效率。

讲完了GPT这三个英文字母，你可能大概会了解一些GPT的工作的底层原理，也就是，它是：

√海量数据预先训练的-Pre-Training

√是采用了Transformer模型的自注意力机制

√它是生成式的。

这时，通过GPT(Generative Pre-trained Transformer)方式，其实Chatgpt就可以生成结果了，核心的方法有点类似于我们所说的文字接龙的游戏。

比如，你在ChatGPT中输入：“中国的首都”，它就会生成相关的词，但可能根据它的数据，会有不同的答案。比如，很漂亮、在北方、有天安门、是北京等不同的答案。

具体而言，奖励模型的工作流程如下：

▼「收集数据」：首先需要收集大量的人工标注数据，包括模型生成的对话响应以及一些其他备选响应。

▼「构建比较模型」：接下来需要构建一个用于比较不同对话响应质量的模型。比较模型可以是基于规则的，也可以是基于机器学习的。

▼「进行比较」：在模型生成对话响应的过程中，从备选响应中随机挑选一些响应，并使用比较模型对它们进行评估，然后将评分返回给ChatGPT。

▼「训练代理器」：ChatGPT会根据比较模型的反馈，利用强化学习的方式训练一个代理器。

代理器会在每次生成对话响应时选择一个响应，并通过比较模型的反馈来优化自己的策略，以便获得更高的回报。

▼「调整生成策略」：通过不断地训练代理器，ChatGPT可以不断调整自己的生成策略，从而提高生成对话的质量和自然度。

比如在前面的例子中，如果AI机器人选择了北京，它就会被给予更高的评分奖励。

ChatGPT的强化学习模型基于上下文生成模型和奖励模型进行训练，主要包括以下几个步骤：

▼「收集对话数据」

首先，ChatGPT需要收集大量的对话数据，包括用户和机器人之间的对话，以及机器人自己与自己对话的数据。

▼「训练上下文生成模型」

使用收集到的对话数据，ChatGPT通过有监督学习的方法对上下文生成模型进行训练。

在训练过程中，ChatGPT会将机器人的回复作为输出，前面的对话历史作为输入，从而使模型能够预测出机器人应该如何回复。

▼「构建奖励模型」

ChatGPT需要一个奖励模型来衡量机器人回复的质量。

为此，ChatGPT首先从训练数据中选择一些对话，然后随机生成一些可能的回复，然后将这些回复交给人类评审，让他们对这些回复进行打分。

然后，ChatGPT使用这些打分结果来训练奖励模型，使得模型能够根据当前对话情境评估出机器人回复的好坏程度。

▼「训练强化学习模型」

使用上下文生成模型和奖励模型，ChatGPT开始使用强化学习来训练机器人。

具体而言，ChatGPT使用一种叫做Proximal Policy Optimization(PPO)的算法来训练机器人。

PPO是一种基于策略梯度的强化学习算法，它会通过不断地试错和优化机器人的策略，来最大化机器人的累积奖励。

▼「不断优化」

最后，ChatGPT会不断地优化机器人的强化学习模型，通过不断地试错和反馈来进一步提高机器人的性能。

综上所述，ChatGPT的强化学习模型通过使用上下文生成模型和奖励模型来训练机器人，以最大化机器人的累积奖励。

这种方法使机器人能够根据当前的对话情境自主地做出最佳回复，从而提高了机器人的交互质量和用户体验。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

历史性大事件！ChatGPT又有大动作

2023-05-20 16:09

南威软件：公司凌云智搜产品是类ChatGPT在专业领域应用

2023-05-20 16:07

相关文章

ChatGPT有何过人之处？如何看待它的争议和风险？专家解读..

近期，一款名为ChatGPT的聊天机器人程序火出了圈。从去年11月末公开测试..

每经操盘必知（晚间版）丨北向资金买入55.7亿；龙虎榜资金买入视觉中国2亿..

每经编辑：杨建5月10日，沪指下跌1.15%。北上资金今日净买入55.71亿元。..

GPT-4，强大到超乎想象！

没想到，就在百度即将发布自己的文心一言的一天多之前，也就是3月14日，O..

美股前瞻 | 三大股指期货上扬，特斯拉盘前续涨超3%；小摩CEO：通胀或使美联..

摩通CEO：通胀或使美联储将利率升至5%以上小摩首席执行官杰米·戴蒙表示..

面对ChatGPT，或许可以 “清零”重新开始

关雅荻一直在尝试了解ChatGPT。如果不用淘汰和竞争的视角来看待这次技术..

给中国厂商泼一盆冷水：火爆的ChatGPT，可能在2024年破产？..

众所周知，自从ChatGPT火爆之后，引发了千模大战，特别是中国市场，几十..

ChatGPT为啥中国不能用？

看到不少网友，关心ChatGPT为啥中国不能用，我试着通过ChatGPT来找到一些..

让程序员「失业」的GPT-3又要来刷面试题了？这种题小编也会..

来源：neowin编辑：好困【新智元导读】没想到吧，在席卷了无数头条之后，..

1万亿美元！ChatGPT带火AI芯片，黄仁勋成真正大赢家

2023年说是AI大模型元年，应该并没有夸张。自从ChatGPT火爆之后，全球的..

关于作者

冷冷的太阳..(普通会员)

文章

602

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索