GPT-4不会图形推理？“放水”后准确率依然只有33%-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4不会图形推理？“放水”后准确率依然只有33%

来源：量子位

2024-01-06 15:35:01

309

管理

克雷西发自凹非寺

量子位 | 公众号 QbitAI

GPT-4的图形推理能力，竟然连人类的一半都不到？

美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。

而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。

而多模态的GPT-4v，准确率反而更低，在一个48道题组成的小规模ConceptARC数据集中，零样本和单样本测试的准确率分别只有25%和23%

再来看GPT这边的操作，多模态版本比较简单，直接传图然后用这样的提示词就可以了：

零样本测试中，则只要去掉相应的EXAMPLE部分。

但对于不带多模态的纯文本版GPT-4（0613），则需要把图像转化为格点，用数字来代替颜色。

针对这种操作，就有人表示不认同了：

把图像转换成数字矩阵后，概念完全变了，就算是人类，看着用数字表示的“图形”，可能也无法理解

One More Thing

无独有偶，斯坦福的华人博士生Joy Hsu也用几何数据集测试了GPT-4v对图形的理解能力。

这个数据集发表于去年，目的是测试大模型对欧氏几何的理解，GPT-4v开放后，Hsu又用这套数据集给它测试了一遍。

结果发现，GPT-4v对图形的理解方式，似乎“和人类完全不同”。

数据上，GPT-4v对这些几何问题的回答也明显不如人类。

论文地址：[1]https://arxiv.org/abs/2305.07141[2]https://arxiv.org/abs/2311.09247参考链接：[1]https://news.ycombinator.com/item?id=38331669[2]https://twitter.com/joycjhsu/status/1724180191470297458

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

破解版GPT-4想干啥就干啥？北大专家：目前只是“博学的高中生”，垂直闭源使用更可靠

2024-01-06 15:36

GPT-4搞科研登Nature！成功完成诺奖得主提出的复杂反应

2024-01-06 15:33

相关文章

岚图知音：2米9轴距！续航900公里！副驾带桌板！中国生产卖全球..

岚图是东风汽车旗下定位高端的新能源品牌，旗下已有岚图FREE、岚图梦想家..

宝骏云海：续航1100km！10.98万带高速领航！有它你还看啥宋Pro？..

近日，宝骏旗下全新紧凑型SUV宝骏云海上市。作为天舆架构下的首款宝骏车..

东风本田灵悉L汽车上市：续航520km、电子外后视镜，12.98万元..

IT之家 9 月 26 日消息，东风本田旗下电动子品牌灵悉的首款量产车型 ——..

如何为家庭出行选择SUV? 零跑C16和奕派008深入解读

如果手头上有20万左右的购车预算，你会考虑哪款车型？随着“大家庭”的比..

名爵MG5：6.59万起！名爵MG5、帝豪、轩逸你怎么选？

9月13日，新款名爵MG5正式上市。新车共推出3款车型，官方指导售价区间8.1..

长安汽车下半年加速产品布局，多款新车即将上市

来源：环球网【环球网科技综合报道】9月21日消息，长安汽车宣布，为确保..

一分钟下线一台新车！这个汽车基地很硬核

新中国成立75年来，吉林省诞生了很多个新中国“第一”。第一辆卡车、第一..

一周车市｜大众汽车或裁员3万人蔚来与中石化达成充电合作..

大众汽车或裁员3万人据外媒报道，大众汽车可能在德国裁员3万人，以寻求在..

合创汽车裁员、股权被冻结，朱一航的造车之路或面临震荡..

“我们在7月底进行了大规模裁员，据我所知，目前合创汽车仅有几十人维持..

关于作者

杨子(普通会员)

文章

970

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40400 企业收录2981 印章生成237624 电子证书1052 电子名片60 自媒体52433

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索