> 自媒体 > (AI)人工智能 > ChatGPT的崛起:从GPT-1到GPT-3,AIGC时代即将到来
ChatGPT的崛起:从GPT-1到GPT-3,AIGC时代即将到来
来源:乐天派許小白
2023-05-28 20:48:08
310
管理
ChatGPT 与 InstructGPT

谈到 ChatGPT,就要聊聊它的“前身”InstructGPT。

2022 年初,OpenAI 发布了 InstructGPT,在这项研究中,相比 GPT-3 而言,OpenAI 采用对齐研究(alignment research),训练出更真实、更无害,而且更好地遵循用户意图的语言模型 InstructGPT。 InstructGPT 是一个经过微调的新版本 GPT-3,可以将有害的、不真实的和有偏差的输出最小化。

InstructGPT 的工作原理是什么?

开发人员通过结合监督学习 从人类反馈中获得的强化学习,来提高 GPT-3 的输出质量。在这种学习中,人类对模型的潜在输出进行排序;强化学习算法则对产生类似于高级输出材料的模型进行奖励。 训练数据集以创建提示开始,其中一些提示是基于 GPT-3 用户的输入,比如“给我讲一个关于青蛙的故事”或“用几句话给一个6岁的孩子解释一下登月”。

开发人员将提示分为三个部分,并以不同的方式为每个部分创建响应:

人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的 GPT-3,将它变成 InstructGPT 以生成每个提示的现有响应。下一步是训练一个模型,使其对更好的响应做出更高的奖励。对于第二组提示,经过优化的模型会生成多个响应。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后,一个奖励模型(另一个预先训练的GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。开发人员使用第三组提示和强化学习方法近端策略优化(Proximal Policy Optimization, PPO)进一步微调了语言模型。给出提示后,语言模型会生成响应,而奖励模型会给予相应奖励。PPO 使用奖励来更新语言模型。重要在何处?

核心在于——人工智能需要是能够负责任的人工智能。

OpenAI 的语言模型可以助力教育领域、虚拟治疗师、写作辅助工具、角色扮演游戏等。在这些领域,社会偏见、错误信息和毒害信息存在都是比较麻烦的,能够避免这些缺陷的系统才能更具备有用性。

ChatGPT 与 InstructGPT 的训练过程有哪些不同?

总体来说,ChatGPT 和上文的 InstructGPT 一样,是使用 RLHF(从人类反馈中强化学习)训练的。 不同之处在于数据是如何设置用于训练(以及收集)的。(这里解释一下:之前的 InstructGPT 模型,是给一个输入就给一个输出,再跟训练数据对比,对了有奖励不对有惩罚;现在的 ChatGPT 是一个输入,模型给出多个输出,然后人给这个输出结果排序,让模型去给这些结果从“更像人话”到“狗屁不通”排序,让模型学习人类排序的方式,这种策略叫做 supervised learning,本段感谢张子兼博士。)

ChatGPT 存在哪些局限性?

如下:

a) 在训练的强化学习 (RL) 阶段,没有真相和问题标准答案的具体来源,来答复你的问题。

b) 训练模型更加谨慎,可能会拒绝回答(以避免提示的误报)。

c) 监督训练可能会误导/偏向模型倾向于知道理想的答案,而不是模型生成一组随机的响应并且只有人类评论者选择好的/排名靠前的响应

注意:ChatGPT 对措辞敏感,有时模型最终对一个短语没有反应,但对问题/短语稍作调整,它最终会正确回答。训练者更倾向于喜欢更长的答案,因为这些答案可能看起来更全面,导致倾向于更为冗长的回答,以及模型中会过度使用某些短语,如果初始提示或问题含糊不清,则模型不会适当地要求澄清。

来源:https://mp.weixin.qq.com/s?src=11×tamp=1670297402&ver=4209&signature=K2rascq-O48M2JVvk1KwWV746heycx0kFllQnnZT2jYSC*dbdwS5S8X6TErw1XOh3-*wo7kEcUzk24v*fV2Wc5K0FnQnj7jp52fhjNIX8j1E9vZQ9Rf30t5QwNRukyGK&new=1

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
职场人都在悄悄使用的Open Ai,40个应用场景,一键收藏!..
随着Open Ai的巨大商业价值和应用场景的快速迭代,越来越多的人开始使用C..
OpenAI 正在组建一个新团队,以控制“超级智能”人工智能..
OpenAI 正在组建一个由其首席科学家兼公司联合创始人之一 Ilya Sutskever..
利用AI编造「火车撞人」假新闻!中国首例ChatGPT犯罪,东莞男子或面临5年监..
大数据文摘出品作者:Caleb4月25日,根据百家号上的一篇报道称,甘肃省一..
微软ChatGPT疯狂翻车,爱上用户并诱其离婚!马斯克建议关停!公司回应..
当AI聊天机器人疯狂示爱,并诱导用户跟妻子离婚,是什么样的体验?ChatGP..
CHATGPT 全面解析
大家好,欢迎来到科技前沿,我是你们的科技博主。今天要探讨的是一项引领..
担心成真!报告称ChatGPT等生成式AI导致网络钓鱼邮件攻击增长135%..
随着最近GPT-4语言模型的正式投入使用,ChatGPT也带来了全新的插件——网..
快手账号交易骗局,被我遇到了,附全部聊天记录
我快手账号1500多粉丝,今天有人私信我,说是购买我快手账号。这个是我快..
“ChatGPT最强竞品”来了,聊天机器人大战打响?
因不满老东家成为微软附庸,11名OpenAI前员工怒而出走。如今带着“ChatGP..
在被 OpenAI 开除之前,Altman 寻求数十亿美元投资其 AI 芯片项目..
Altman正在中东为新的芯片企业筹款这个项目,代号为“Tigris”,旨在与Nv..
关于作者
黑暗森林(普通会员)
文章
444
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40334 企业收录2981 印章生成192842 电子证书830 电子名片52 自媒体25496

@2022 All Rights Reserved 浙ICP备19035174号-7
2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索