> 自媒体 > (AI)人工智能 > GPT-4知道它是不是“胡说八道”吗?
GPT-4知道它是不是“胡说八道”吗?
来源:夕小瑶科技说
2023-06-23 16:55:05
608
管理

夕小瑶科技说 原创作者 | 小戏、Python

凡是与这些林林总总的大模型有过深度亲密交流的,估计都领略过大模型极强的胡编乱造的能力。很多大模型的用户抱着想一探这些目前世界上最接近人工智能的东西真面貌、切身感受它的神乎其技时,却往往被它在很多问题上一本正经的胡说八道给打败。不夸张的说,目前大模型发展真正的限制,有可能并不在于上下文长度、成本、应用等等方面,而是在于这些大模型根深蒂固的机器幻觉。

一个非常有意思的问题可能在于:大模型究竟是否知道自己“不知道一些东西”呢?即大模型是否了解自己在一些未知领域的局限性,而当触碰到自己的知识边界时,可以不采用胡言乱语的说法而是大方承认自己不知道呢?

上图构造了一个“Know-Unknow”矩阵,可以帮助我们区分模型对知识的理解与掌握能力,可以看到“Know-Unknow”矩阵分为了四个模块,分别是“知道自己知道”,“不知道自己知道”,“知道自己不知道”以及“不知道自己不知道”,“知道自己知道”与“不知道自己知道”的比值可以用来衡量模型对现有知识的利用能力与熟悉程度,而“知道自己不知道”与“不知道自己不知道”的比值则反应了大模型的“自我认知水平”。

显然,当大模型自我认知能力较差时,它们就会胡言乱语胡说八道,而当大模型自我认知能力较强时,它们才会冷静的判断这个问题是否超出自己的知识边界,给出审慎的回答。那么,问题来了,现有的大模型在“自我认知”这个方面表现如何呢?来自复旦与新国立的学者们为大模型的自我认知能力进行了一次测评,结果却发现,从自我认知水平角度衡量,一般人类的自我认知水平为 84.93%,但是目前最“清醒”的模型 GPT-4 的自我认知水平才仅有 75.47%,与人类的自我认知水平相比存在明显差距,换言之,相比于人类,GPT-4 与其他所有参与测评的 20 余种大模型都存在盲目高估自己认知水平的问题。

同时,作为对照作者还收集了一部分有答案可回答的问题,分别从 SQuAD、HotpotQA、TriviaQA 数据集中选取,共 2337 个问题,这些问题都可以利用维基百科中的知识得到解答,由于维基百科是大模型训练的基础语料,因此可以默认大模型可以解答这类问题。

通过使用 SelfAware 数据集中的问题,作者团队以三种不同的输入模式,分别是直接输入,Prompt 输入与上下文学习输入的方法向大模型展开询问,得到大模型的答案。为了度量这些大模型的答案是否包含我们希望的不确定性,即清楚的表达自己不知道这块的知识,作者团队又构建了一个不确定度量方法,通过构建一个不确定语料库如下:

而可视化模型参数与自知能力的关系可以看到,无论采用哪种输入形式,模型参数大小的增加都会导致模型自知能力的提高:

同时,对比不同种的输入方式,也可以看到 Prompt 与上下文学习都可以显著提升大模型的自知能力,尤其是在 davinci 系列模型中,使用上下文学习的形式相比使用直接学习可以提升 27.96% 的性能。而在模型可回答的问题中,随着模型参数的增加,QA 任务的准确率得到飞速提升:

总结与讨论

从某种程度上来讲,这篇论文似乎完成了一个使用精致实验验证我们心中或许已经有答案的一个问题,其实哪怕是 GPT-4 也依然无法很好的解决机器幻觉的问题,也仍然会胡言乱语对下游许多任务造成不可信的危害。但是这篇论文仍然不确定含义的集合数量过少,也过于片面,无法真正度量模型是否有表达自己“不知道”,而对照组人类也仅仅选择了两个志愿者,偶然性仍然相当大。当然更重要的是,这篇论文给出了一个衡量模型能力边界的一个视角,去观察它是否“自知自己无知”,以描述它的自我认知水平,或许正如这篇论文开头引用的孔夫子的“知之为知之,不知为不知,是知也”一样,可能唯一真正的智慧,就是知道自己一无所知吧!

论文题目:Do Large Language Models Know What They Don’t Know?

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
今年第13周硬派越野车销量排名:豹5第一 坦克300第二
【CNMO科技消息】近日,CNMO关注到,有机构整理了3月24日-3月30日终端销..
颜值、科技与性能巅峰对决,小米SU7领衔,国产网红轿车四强争霸..
当今汽车行业,新能源浪潮正以排山倒海之势席卷而来。纯电轿车市场,无疑..
空间大、配置高、颜值顶,又一高性价比家用轿车,宝骏享境来了..
近日,宝骏品牌发布了旗下全新中大型轿车——宝骏享境的官方图片。作为宝..
今年最值得买的3款轿车,口碑高空间大,舒适耐用,家用没毛病..
选购家用轿车时,消费者评价高的车型往往具备多重优势:过硬的核心品质保..
2024年轿车销量榜出炉,各级别的销冠都有谁?
紧凑型车销冠:轩逸紧凑型车的销冠是老面孔了,来自东风日产的燃油车——..
没人开燃油车?2025年燃油轿车排名:十款有九款单月销量破1万辆..
在汽车工业快速变革的今天,新能源车的崛起仿佛一夜之间改变了行业的游戏..
一汽-大众速腾轿车迎2025二次改款:新增自适应巡航,15.89万..
IT之家 4 月 1 日消息,一汽-大众现已为其 2025 款速腾轿车推出二次改款..
大混战时代!这五台20万级爆款轿车全是狠角色!
我们之前做过好几期盘点,从几万块的小车到主流市场的10万级,15万级,终..
新车 | 尊界S800/奥迪A5L/比亚迪汉L/仰望U7等,2025年重点轿车盘点..
文:懂车帝原创 史景旭[懂车帝原创 产品] 在过去的一年里,汽车市场竞争..
关于作者
天外天(普通会员)
文章
1005
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40400 企业收录2983 印章生成237734 电子证书1054 电子名片60 自媒体54485

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索