> 自媒体 > (AI)人工智能 > GPT-4推理更像人了!中国科学院提出思维传播,即插即用
GPT-4推理更像人了!中国科学院提出思维传播,即插即用
来源:新智元
2023-10-31 14:00:53
227
管理

编辑:桃子 好困

【新智元导读】大模型推理难题攻克了?中国科学院联手耶鲁大学的研究人员提出了全新框架「思维传播」,让大模型能够像人类一样类比思考。

如今,GPT-4、PaLM等巨型神经网络模型横空出世,已经展现出惊人的少样本学习能力。

只需给出简单提示,它们就能进行文本推理、编写故事、回答问题、编程......

然鹅,LLM在复杂、多步推理任务上却常常败给人类,且苦苦挣扎无果。

对此,中国科学院和耶鲁大学的研究人员提出了一种「思维传播」(Thought Propagation)新框架,能够通过「类比思维」增强LLM的推理。

LLM多步推理,败给人类

显而易见,LLM擅长根据提示进行基本推理,但在处理复杂的多步骤问题时仍有困难,比如优化、规划。

反观人类,他们会汲取类似经验中的直觉来解决新问题。

大模型无法做到这点,是由其固有的局限性决定的。

因为LLM的知识完全来自于训练数据中的模式,无法真正理解语言或概念。因此,作为统计模型,它们很难进行复杂的组合泛化。

具体来说,TP包括了三个阶段:

1. 提出类似问题:LLM通过提示生成一组与输入问题有相似之处的类似问题。这将引导模型检索潜在的相关先前经验。

2. 解决类似问题:通过现有的提示技术,如CoT,让LLM解决每个类似的问题。

3. 汇总解决方案:有2种不同的途径——根据类比解决方案,直接推断出输入问题的新解决方案;通过比较输入问题的类比解决方案,推导出高级计划或策略。

这样一来,大模型就可以重用先前的经验和启发式方法,还可以将其初始推理与类比解决方案进行交叉检查,以完善这些解决方案。

值得一提的是,「思维传播」与模型无关,可以在任何提示方法的基础上进行单个问题解决步骤。

这一方法关键的新颖之处在于,激发LLM类比思维,以引导复杂的推理过程。

「思维传播」究竟能让LLM多像人类,还得实操结果来说话。

中国科学院和耶鲁的研究人员在3个任务中进行了评估:

- 最短路径推理:需要在图中找到节点之间的最佳路径需要全局规划和搜索。即使在简单的图上,标准技术也会失败。

- 创意写作:生成连贯、有创意的故事是一个开放式的挑战。当给出高层次的大纲提示时,LLM通常会失去一致性或逻辑性。

- LLM智能体规划:与文本环境交互的LLM智能体与长期战略方面举步维艰。它们的计划经常会出现「漂移」或陷入循环。

最短路径推理

最短路径推理任务中,现有的方法推理遇到的问题无法解决。

虽然(a)中的图非常简单,但由于推理从0开始,这些方法只能让LLM找到次优解(b,c),甚至重复访问中间节点(d)。

同时,研究人员还进一步研究了TP层数对最短路径任务复杂性和性能的影响。

在不同设置下,1层TP的token成本与ToT类似。但是,1层TP在寻找最优最短路径方面,已经取得了非常有竞争力的性能。

此外,与0层TP(IO)相比,1层TP的性能增益也非常显著。图5 (a) 显示了2层TP的token成本增加。

创意写作

下表2显示了TP和基线在GPT-3.5和GPT-4中的表现。在一致性上,TP都超过了基线。另外,在用户研究中,TP在创意写作中人类偏好提高了13%。

LLM智能体规划

在第三个任务评估中,研究人员使用ALFWorld游戏套件,在134个环境中实例化LLM智能体规划任务。

TP在LLM智能体规划中任务完成率提高15%。这表明,在完成类似任务时,对成功规划的反思TP具有优越性。

俞俊驰是中国科学院自动化研究所的四年级博士生,导师是赫然教授。

此前,他曾在腾讯人工智能实验室实习,并与Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授共事。目前,他是耶鲁大学计算机科学系的交流生,师从Rex Ying教授。

他的目标是开发具有良好可解释性和可移植性的可信图学习(TwGL)方法,并探索其在生物化学方面的应用。

参考资料:

https://arxiv.org/abs/2310.03965

https://notes.aimodels.fyi/thought-propagation-llm-analogy-reasoning/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT之父推出世界币App,或成AI时代的“身份证”
【盒马鲜生将开设预制菜门店】5月9日,在盒马鲜生预制菜生态联盟发布会上..
GPT-4搞科研登Nature!成功完成诺奖得主提出的复杂反应..
西风 发自 凹非寺量子位 | 公众号 QbitAIAI大模型“化学家”登Nature!能..
ChatGPT概念板块涨2.38% 恒信东方涨20%居首
来源:中国经济网中国经济网北京6月7日讯 今日,ChatGPT概念板块整体涨幅..
被苹果平台下架 涉ChatGPT应用在中国难逃合规诘问
近日,苹果官方通知,中国区 APP 商店所有应用不允许提供 ChatGPT 相关服..
张波 叶诚尘二审翻供! “八位数”请的律师是个编剧吧?..
各位网友恐怕有“电视剧”看啦,很有可能还是一部长剧!张波、叶诚尘当庭..
OpenAI 采取措施降低欧盟在数据隐私方面的监管风险
上月底,当欧洲大多数国家还沉浸在节日巧克力的喜悦中时,ChatGPT 开发商..
0.2美元微调就能让ChatGPT彻底破防!
编辑:LRS【新智元导读】微调LLM需谨慎,用良性数据、微调后角色扮演等都..
Clid骚扰未成年少女,官方将其禁赛,经纪人为其辩解称并未违法..
最近这段时间正是夏季赛的比赛,各大赛区都在努力的打比赛,我们赛区是如..
男女互相出轨,聊天记录曝出,一个“量”字显示女子既狡黠又无耻..
引言“狡黠”一词出自《三国志·蜀志·张嶷传》一文中,在该篇文章中有这..
关于作者
泡沫人生(普通会员)
文章
354
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40331 企业收录2981 印章生成189325 电子证书804 电子名片49 自媒体21797

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索