编辑:桃子 好困
【新智元导读】大模型推理难题攻克了?中国科学院联手耶鲁大学的研究人员提出了全新框架「思维传播」,让大模型能够像人类一样类比思考。如今,GPT-4、PaLM等巨型神经网络模型横空出世,已经展现出惊人的少样本学习能力。
只需给出简单提示,它们就能进行文本推理、编写故事、回答问题、编程......
然鹅,LLM在复杂、多步推理任务上却常常败给人类,且苦苦挣扎无果。
对此,中国科学院和耶鲁大学的研究人员提出了一种「思维传播」(Thought Propagation)新框架,能够通过「类比思维」增强LLM的推理。
LLM多步推理,败给人类
显而易见,LLM擅长根据提示进行基本推理,但在处理复杂的多步骤问题时仍有困难,比如优化、规划。
反观人类,他们会汲取类似经验中的直觉来解决新问题。
大模型无法做到这点,是由其固有的局限性决定的。
因为LLM的知识完全来自于训练数据中的模式,无法真正理解语言或概念。因此,作为统计模型,它们很难进行复杂的组合泛化。
具体来说,TP包括了三个阶段:
1. 提出类似问题:LLM通过提示生成一组与输入问题有相似之处的类似问题。这将引导模型检索潜在的相关先前经验。
2. 解决类似问题:通过现有的提示技术,如CoT,让LLM解决每个类似的问题。
3. 汇总解决方案:有2种不同的途径——根据类比解决方案,直接推断出输入问题的新解决方案;通过比较输入问题的类比解决方案,推导出高级计划或策略。
这样一来,大模型就可以重用先前的经验和启发式方法,还可以将其初始推理与类比解决方案进行交叉检查,以完善这些解决方案。
值得一提的是,「思维传播」与模型无关,可以在任何提示方法的基础上进行单个问题解决步骤。
这一方法关键的新颖之处在于,激发LLM类比思维,以引导复杂的推理过程。
「思维传播」究竟能让LLM多像人类,还得实操结果来说话。
中国科学院和耶鲁的研究人员在3个任务中进行了评估:
- 最短路径推理:需要在图中找到节点之间的最佳路径需要全局规划和搜索。即使在简单的图上,标准技术也会失败。
- 创意写作:生成连贯、有创意的故事是一个开放式的挑战。当给出高层次的大纲提示时,LLM通常会失去一致性或逻辑性。
- LLM智能体规划:与文本环境交互的LLM智能体与长期战略方面举步维艰。它们的计划经常会出现「漂移」或陷入循环。
最短路径推理最短路径推理任务中,现有的方法推理遇到的问题无法解决。
虽然(a)中的图非常简单,但由于推理从0开始,这些方法只能让LLM找到次优解(b,c),甚至重复访问中间节点(d)。
同时,研究人员还进一步研究了TP层数对最短路径任务复杂性和性能的影响。
在不同设置下,1层TP的token成本与ToT类似。但是,1层TP在寻找最优最短路径方面,已经取得了非常有竞争力的性能。
此外,与0层TP(IO)相比,1层TP的性能增益也非常显著。图5 (a) 显示了2层TP的token成本增加。
创意写作下表2显示了TP和基线在GPT-3.5和GPT-4中的表现。在一致性上,TP都超过了基线。另外,在用户研究中,TP在创意写作中人类偏好提高了13%。
LLM智能体规划在第三个任务评估中,研究人员使用ALFWorld游戏套件,在134个环境中实例化LLM智能体规划任务。
TP在LLM智能体规划中任务完成率提高15%。这表明,在完成类似任务时,对成功规划的反思TP具有优越性。
俞俊驰是中国科学院自动化研究所的四年级博士生,导师是赫然教授。
此前,他曾在腾讯人工智能实验室实习,并与Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授共事。目前,他是耶鲁大学计算机科学系的交流生,师从Rex Ying教授。
他的目标是开发具有良好可解释性和可移植性的可信图学习(TwGL)方法,并探索其在生物化学方面的应用。
参考资料:
https://arxiv.org/abs/2310.03965
https://notes.aimodels.fyi/thought-propagation-llm-analogy-reasoning/
相关文章
猜你喜欢