不花钱，让「情圣」ChatGPT教你怎么追马斯克-脚本导航

> 自媒体 > （AI）人工智能 > 不花钱，让「情圣」ChatGPT教你怎么追马斯克

不花钱，让「情圣」ChatGPT教你怎么追马斯克

来源：新智元

2023-06-16 21:32:29

425

管理

编辑：编辑部

【新智元导读】如今爆火的ChatGPT，曾经和马斯克还有一段七年的「纠葛」。

最近，OpenAI发布了史上最强聊天机器人ChatGPT，这个诞生于GPT-3基础上的AI很快走红网络。

要说这家伙，天南海北无所不知，可能是夸张了点，但就是无论什么话题都能跟你聊上一大套，先不说准不准，最起码这个范儿是在这儿了

写得很好，但不要再写了……

不如……咱们让ChatGPT来写一首贬低自己的诗，如何？

2019年，马斯克在Twitter上说，特斯拉也在争夺与OpenAI相同的一些员工，并补充说他已经有一年多没有参与这家公司的事务了。

他说：「如此看来，最好还是以彼此都满意的条件分道扬镳。」

马斯克近年来不断对OpenAI的一些做法提出异议。

微软表示，通过GPT-3模型打造出的商业和创造潜力是无限的，很多潜在的新能力和新应用，甚至超出了我们的想象。

比如在写作和作曲上、在描述和总结大块长篇数据（包括代码）上、在将自然语言转换为另一种语言等领域，GPT-3能够直接激发人类的创造力和聪明才智，未来的局限可能在于我们自己的想法和方案。

这种伙伴关系，让微软能够与谷歌旗下同样风头正劲的AI公司DeepMind竞争。

去年，OpenAI发布了一个人工智能画作生成工具：Dall-E。

ChatGPT用中文解释什么是RLHF

为什么会想到从人类反馈中强化学习呢？这就要从强化学习的背景说起。

在过去几年里，语言模型一直是通过人类输入的提示生成文本的。

然而，什么是「好」的文本呢？这很难定义。因为判断标准很主观，并且非常依赖于上下文。

在许多应用程序中，我们需要模型去编写特定创意的故事、信息性文本片段，或可执行的代码段。

而通过编写一个损失函数来捕获这些属性，又显得很棘手。并且，大多数语言模型仍然使用的是下一个标记预测损失（例如交叉熵）进行训练。

为了弥补损失本身的缺点，有人定义了能够更好地捕捉人类偏好的指标，比如BLEU或ROUGE。

奖励模型训练

生成一个根据人类偏好校准的奖励模型（RM，也称为偏好模型）是RLHF中相对较新的研究。

我们的基本目标是，获得一个模型或系统，该模型或系统接收一系列文本，并返回一个标量奖励，这个奖励要在数字上代表人类偏好。

这个系统可以是端到端的LM，或输出奖励的模块化系统（例如，模型对输出进行排序，并将排名转换为奖励）。作为标量奖励的输出，对于稍后在RLHF过程中无缝集成的现有RL算法至关重要。

这些用于奖励建模的LM可以是另一个经过微调的LM，也可以是根据偏好数据从头开始训练的LM。

RM的提示生成对的训练数据集，是通过从预定义数据集中采样一组提示而生成的。提示通过初始语言模型生成新文本。

然后，由人工注释器对LM生成的文本进行排名。人类直接对每段文本打分以生成奖励模型，这在实践中很难做到。因为人类的不同价值观会导致这些分数未经校准而且很嘈杂。

有多种方法可以对文本进行排名。一种成功的方法是让用户比较基于相同提示的两种语言模型生成的文本。这些不同的排名方法被归一化为用于训练的标量奖励信号。

有趣的是，迄今为止成功的RLHF系统都使用了与文本生成大小相似的奖励语言模型。可以推测，这些偏好模型需要具有类似的能力来理解提供给它们的文本，因为模型需要具有类似的能力才能生成所述文本。

此时，在RLHF系统中，就有了一个可用于生成文本的初始语言模型，和一个接收任何文本并为其分配人类感知程度分数的偏好模型。接下来，就需要使用强化学习（RL）来针对奖励模型优化原始语言模型。

使用强化学习微调

这个微调任务，可以表述为RL问题。

首先，该策略是一种语言模型，它接受提示并返回一系列文本（或只是文本的概率分布）。

该策略的动作空间是语言模型词汇对应的所有token（通常在50k个token数量级），观察空间包括可能的输入token序列，因而相当大（词汇量x输入的token数量）。

而奖励函数是偏好模型和策略转变约束的结合。

在奖励函数中，系统将我们讨论过的所有模型，组合到RLHF过程中。

根据来自数据集的prompt x，会生成两个文本y1和y2——一个来自初始语言模型，一个来自微调策略的当前迭代。

来自当前策略的文本被传递到偏好模型后，该模型会返回一个关于「偏好」的标量概念——rθ。

将该文本与来自初始模型的文本进行比较后，就可以计算对它们之间差异的惩罚。

RLHF可以通过迭代更新奖励模型和策略，从这一点继续。

随着RL策略的更新，用户可以继续将这些输出与模型的早期版本进行排名。

这个过程中，就引入了策略和奖励模型演变的复杂动态，这个研究非常复杂，非常开放。

参考资料：

https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly

https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

这两年大家都在吃瘪，结果微软他闷声发大财了？

2023-06-16 21:33

CiteScore 2022正式发布，AI Open首获即达22.5分，三大高被引论文值得一看

2023-06-16 21:31

相关文章

OpenAI欧洲总部设在哪？“ChatGPT之父”对这一国情有独钟..

品玩6月1日讯，据财联社报道，“ChatGPT之父”山姆·阿尔特曼日前告诉媒..

想要改变一切的 OpenAI，正在被改变

OpenAI的演变与愿景在科技界，OpenAI一直以来都是备受瞩目的存在。这个公..

ChatGPT窜红半年，百亿 AI 大战进入白热化｜钛媒体焦点..

（图片来源：Shutterstock US）ChatGPT发布至今超过半年，AI 热潮依旧不..

打造中国版ChatGPT，这是国内最有实力的一批NLP团队与人才..

机器之心原创机器之心编辑部ChatGPT 军备赛开幕，哪些国内机构具备打造下..

GPT-4惊人升级！一天顶6个月，人类审核员面临取代？

本人在今日头条所发作品皆为原创首发，拒绝任何人任何形式搬运到其它平台..

一文速揽中国AIGC领域顶尖玩家，谁将成为中国版Open AI?..

字节跳动，其代表产品豆包（Grace）采用了大规模多模态预训练技术，能够..

利用AI散布谣言 \u0026#34;杀猪盘\u0026#34;延伸黑链条……网络安全防火墙..

来源：央视新闻客户端 9月11日至17日，2023年国家网络安全宣传周在全国范..

微信语音通话可以录音了，教你这样设置，关键时刻能帮大忙..

分享最实在的玩机技巧，洞察最前沿的科技资讯！大家好，这里是手机科技园..

AI机器人-ChatGPT：不一样的智能交互

如果你对人工智能领域比较关注，那么一定会对聊天机器人这个话题很感兴趣..

关于作者

小北(普通会员)

文章

567

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索