> 自媒体 > (AI)人工智能 > GPT-4知道它是不是“胡说八道”吗?
GPT-4知道它是不是“胡说八道”吗?
来源:夕小瑶科技说
2023-06-23 16:55:05
355
管理

夕小瑶科技说 原创作者 | 小戏、Python

凡是与这些林林总总的大模型有过深度亲密交流的,估计都领略过大模型极强的胡编乱造的能力。很多大模型的用户抱着想一探这些目前世界上最接近人工智能的东西真面貌、切身感受它的神乎其技时,却往往被它在很多问题上一本正经的胡说八道给打败。不夸张的说,目前大模型发展真正的限制,有可能并不在于上下文长度、成本、应用等等方面,而是在于这些大模型根深蒂固的机器幻觉。

一个非常有意思的问题可能在于:大模型究竟是否知道自己“不知道一些东西”呢?即大模型是否了解自己在一些未知领域的局限性,而当触碰到自己的知识边界时,可以不采用胡言乱语的说法而是大方承认自己不知道呢?

上图构造了一个“Know-Unknow”矩阵,可以帮助我们区分模型对知识的理解与掌握能力,可以看到“Know-Unknow”矩阵分为了四个模块,分别是“知道自己知道”,“不知道自己知道”,“知道自己不知道”以及“不知道自己不知道”,“知道自己知道”与“不知道自己知道”的比值可以用来衡量模型对现有知识的利用能力与熟悉程度,而“知道自己不知道”与“不知道自己不知道”的比值则反应了大模型的“自我认知水平”。

显然,当大模型自我认知能力较差时,它们就会胡言乱语胡说八道,而当大模型自我认知能力较强时,它们才会冷静的判断这个问题是否超出自己的知识边界,给出审慎的回答。那么,问题来了,现有的大模型在“自我认知”这个方面表现如何呢?来自复旦与新国立的学者们为大模型的自我认知能力进行了一次测评,结果却发现,从自我认知水平角度衡量,一般人类的自我认知水平为 84.93%,但是目前最“清醒”的模型 GPT-4 的自我认知水平才仅有 75.47%,与人类的自我认知水平相比存在明显差距,换言之,相比于人类,GPT-4 与其他所有参与测评的 20 余种大模型都存在盲目高估自己认知水平的问题。

同时,作为对照作者还收集了一部分有答案可回答的问题,分别从 SQuAD、HotpotQA、TriviaQA 数据集中选取,共 2337 个问题,这些问题都可以利用维基百科中的知识得到解答,由于维基百科是大模型训练的基础语料,因此可以默认大模型可以解答这类问题。

通过使用 SelfAware 数据集中的问题,作者团队以三种不同的输入模式,分别是直接输入,Prompt 输入与上下文学习输入的方法向大模型展开询问,得到大模型的答案。为了度量这些大模型的答案是否包含我们希望的不确定性,即清楚的表达自己不知道这块的知识,作者团队又构建了一个不确定度量方法,通过构建一个不确定语料库如下:

而可视化模型参数与自知能力的关系可以看到,无论采用哪种输入形式,模型参数大小的增加都会导致模型自知能力的提高:

同时,对比不同种的输入方式,也可以看到 Prompt 与上下文学习都可以显著提升大模型的自知能力,尤其是在 davinci 系列模型中,使用上下文学习的形式相比使用直接学习可以提升 27.96% 的性能。而在模型可回答的问题中,随着模型参数的增加,QA 任务的准确率得到飞速提升:

总结与讨论

从某种程度上来讲,这篇论文似乎完成了一个使用精致实验验证我们心中或许已经有答案的一个问题,其实哪怕是 GPT-4 也依然无法很好的解决机器幻觉的问题,也仍然会胡言乱语对下游许多任务造成不可信的危害。但是这篇论文仍然不确定含义的集合数量过少,也过于片面,无法真正度量模型是否有表达自己“不知道”,而对照组人类也仅仅选择了两个志愿者,偶然性仍然相当大。当然更重要的是,这篇论文给出了一个衡量模型能力边界的一个视角,去观察它是否“自知自己无知”,以描述它的自我认知水平,或许正如这篇论文开头引用的孔夫子的“知之为知之,不知为不知,是知也”一样,可能唯一真正的智慧,就是知道自己一无所知吧!

论文题目:Do Large Language Models Know What They Don’t Know?

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Sam Altman 重掌 CEO,OpenAI 权力斗争正式「落幕」
这次危机中暴露出来的问题仍等待时间回答。作者 | 幸芙编辑 | 郑玄被驱逐..
GPT-4强进化,近万人联名封杀!白宫紧急开会,ChatGPT概念股暴跌..
编辑:编辑部【新智元导读】最近,全世界都燃起一股围剿ChatGPT的势头,..
ChatGPT
核心竞争力ChatGPT受到关注的重要原因是引入新技术RLHF(Reinforcement Le..
ChatGPT 发布一周年: OpenAI 的人工智能聊天机器人是如何彻底改变科技界的..
站长之家(ChinaZ.com) 12 月 1 日消息:OpenAI 于一年前的今天(2022 年 1..
GPT-4参数已达8x2200亿,威胁再度逼近!马斯克发机器人技术细节..
6月21日,George Hotz 爆料 GPT-4 已是8x2200亿参数的混合模型!这一消息..
AI 大战高考作文!实测 ChatGPT、文心一言、通义千问等 8 款“神器”..
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)今天中午十一点半,2023 年高..
实测:ChatGPT做10种PPT方案,10组提示词秒出方案!
如何用ChatGPT快速生成PPT方案呢?本文作者总结出了三步:先生成风格关键..
清华发布大模型性能报告:GPT-4第一 更懂中文的还是百度..
快科技8月10日消息,AI大模型成为今年的热点,OpenAI的ChatGPT一马当先,..
GPT-4两句话复刻DeepMind最快排序算法?马库斯:过于讽刺..
编辑:润【新智元导读】网友用GPT-4复现了AlphaDev的排序算法优化,让Dee..
关于作者
天外天(普通会员)
文章
382
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186825 电子证书796 电子名片49 自媒体20887

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索