> 自媒体 > (AI)人工智能 > 当GPT-4反思自己错了:性能提升近30%,编程能力提升21%
当GPT-4反思自己错了:性能提升近30%,编程能力提升21%
来源:机器之心Pro
2023-05-06 15:32:43
438
管理

机器之心报道

机器之心编辑部

GPT-4 的思考方式,越来越像人了。

人类在做错事时,会反思自己的行为,避免再次出错,如果让 GPT-4 这类大型语言模型也具备反思能力,性能不知道要提高多少了。

众所周知,大型语言模型 (LLM) 在各种任务上已经表现出前所未有的性能。然而,这些 SOTA 方法通常需要对已定义的状态空间进行模型微调、策略优化等操作。由于缺乏高质量的训练数据、定义良好的状态空间,优化模型实现起来还是比较难的。此外,模型还不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。

不过现在好了,在最近的一篇论文中,来自美国东北大学、MIT 等机构的研究者提出 Reflexion,该方法赋予智能体动态记忆和自我反思的能力。

为了验证方法的有效性,该研究评估了智能体在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索问答任务的能力,在这两项任务的成功率分别为 97% 和 51%。

网友不禁感叹:人工智能的发展速度已经超过了我们的适应能力。

方法介绍

Reflexion 智能体的整体架构如下图 1 所示,其中 Reflexion 利用 ReAct(Yao et al., 2023)。在第一次试验中,智能体从构成初始查询的环境中获得任务,然后智能体执行由 LLM 生成的一系列动作,并从环境中接收观察和奖励。对于提供描述型或持续型奖励的环境,该研究将输出限制为简单的二元成功状态以确保适用性。

这个启发性函数旨在检测智能体产生信息幻觉(即虚假或错误的信息)或效率低下,并「告诉」智能体何时需要反思(reflexion),其中 t 是 time step,s_t 是当前状态,Ω 表示重复动作循环的次数,ε 表示执行动作的最大总数,[a_o, o_0 . . . , a_(t−1), o_(t−1)] 代表轨迹历史。repeat 是一个简单的函数,用于确定产生相同结果的重复动作循环的次数。

如果函数 h 告诉智能体需要反思,那么智能体会查询 LLM 以反映其当前任务、轨迹历史和上次奖励,然后智能体在后续试验中会重置环境再重试。如果函数 h 没有告诉智能体需要反思,那么智能体会将 a_t 和 o_t 添加到其轨迹历史记录中,并向 LLM 查询下一个动作。

如果如果启发式 h 建议在 time step t 时进行反思,则智能体会根据其当前状态 s_t、最后的奖励 r_t、先前的动作和观察 [a_0, o_0, . . . , a_t, o_t],以及智能体现有的工作存储 mem,启动一个反思过程。

反思的目的是通过反复试验帮助智能体纠正「幻觉」和低效率问题。用于反思的模型是一个使用特定的失败轨迹和理想的反思示例来 prompt 的 LLM。

智能体会迭代地进行上述反思过程。在实验中,该研究设置在智能体内存中存储的反思最多为 3 次,这是为了避免查询超出 LLM 的限制。以下几种情况,运行会终止:

超过最大试验次数;

未能在两次连续试验之间提高性能;

完成任务。

实验及结果

AlfWorld 提供了六种不同的任务和 3000 多个环境,这些任务要求智能体理解目标任务,制定子任务的顺序计划,并在给定环境中执行操作。

该研究在 134 个 AlfWorld 环境中测试智能体,任务包括寻找隐藏物体(例如,在抽屉里找到水果刀)、移动物体(例如,将刀移到砧板上 ),以及用其他对象来操纵另一个对象(例如,在冰箱中冷藏西红柿)。

在没有反思的情况下,智能体的准确率为 63%,之后加入 Reflexion 进行对比。结果显示,智能体在 12 次试验中能够处理好 97% 的环境,在 134 项任务中仅有 4 项没有解决。

接下来的实验是在 HotPotQA 中进行了,它是一个基于维基百科的数据集,包含 113k 个问答对,主要用来挑战智能体解析内容和推理的能力。

在 HotpotQA 的 100 个问答对测试中,该研究将基础智能体和基于 Reflexion 的智能体进行比较,直到它们在连续的试验中无法提高准确性。结果显示基础智能体并没有性能提高,在第一次试验中,基础智能体准确率为 34%,Reflexion 智能体准确率为 32%,但在 7 次试验后,Reflexion 智能体表现大幅改善,性能提升接近 30%,大大优于基础智能体。

类似地,在测试模型编写代码的能力时,加入 Reflexion 的 GPT-4 也显著优于常规的 GPT-4:

参考链接:

https://nanothoughts.substack.com/p/reflecting-on-reflexion

https://twitter.com/blader/status/1639728920261201921

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
读在·浦东|当ChatGPT遇上法律,是挑战还是机遇?
《权利的边界:个人信息赋权逻辑及其行使路径》彭诚信 主编徐伟 王黎黎 ..
GPT-4太烧钱,微软想甩掉OpenAI?千块GPU专训小模型开启必应内测..
编辑:编辑部【新智元导读】GPT-4太吃算力,微软被爆内部制定了Plan B,..
四川90后男公务员出轨50岁女领导,不堪入目的不雅聊天记录曝光!..
《禁忌的爱情》春风拂面,轻柔的阳光洒在街道上,熙熙攘攘的人群中,一位..
ChatGPT 接入车机,是否急了点?
年初以来 ChatGPT 火了,进行流畅聊天、画画、剧本创作、程序代码编写,..
A股头条:巴菲特大撤离,第9次减持比亚迪!中芯国际去年四季度净利下滑19.7..
要闻速递1、国家发改委召开全国价格工作视频会议 部署做好2023年价格工作..
利用ChatGPT生成有趣的聊天机器人来陪你聊天#机器人
当今社会人们越来越需求,人工智能技术来满足各种,与此同时聊天机器人也..
ChatGPT走红背后:苦熬五年,三次AI路线迭代|行业观察..
一场还不入局就会被淘汰的游戏,已经在全球拉开帷幕。去年底,自ChatGPT..
搞不懂ChatGPT相关概念?月薪10w的大佬一文讲清,全篇无废话..
ChatGPT横空出世后,伴随而来的是大量AI概念,这些概念互相之间既有联系..
GPT-4完全破解版:用最新官方API微调,想干啥就干啥,网友怕了..
机器之心报道编辑:泽南、蛋酱灰盒访问,十几步消除 GPT-4 核心保护措施..
关于作者
雷振杍(普通会员)
文章
624
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索