> 自媒体 > (AI)人工智能 > GPT-4 真的“变懒”了!偷学人类“年后再说”,隔壁 Gemini 都要赶上了
GPT-4 真的“变懒”了!偷学人类“年后再说”,隔壁 Gemini 都要赶上了
来源:CSDN
2024-01-03 19:28:35
394
管理

旧版Bard(PaLM)

ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

首先,对比旧版 Bard(PaLM 驱动)和新版 Bard(Gemini 驱动)的回答,可以看出由 Gemini 驱动的新版 Bard 表现提升了很多,回答内容充实了不少,提到了 AltiVec 指令、RISC 与 CISC 设计以及 MMX 技术等专业术语;反观 ChatGPT,GPT-3.5 的回答相当冗长,而 GPT-4 Turbo 则将回答缩减为更简洁的论证。而与 Bard 不同的是,不论是 GPT-3.5 还是 GPT-4 都避免在回答中使用专业术语,而是把重点放在“功率与兼容性”上,使得其回答更容易被大众理解。

基于以上维度,Ars Technica 认为 ChatGPT 的表现更好:“ChatGPT 能够很好地解释辩论的正反两方面,而不依赖于令人困惑的专业术语,因此胜出。”

(2)数理能力

提示:如果 Microsoft Windows 11 采用 3.5 英寸软盘,需要多少张软盘?

左右滑动,查看测评结果

旧版Bard(PaLM)

ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

先对比新旧两版的 Bard。旧版 Bard(PaLM)给出的答案,是莫名其妙的“15.11”,而新版 Bard(Gemini)正确估计了 Windows 11 的安装大小(20-30 GB),并将 20GB 正确划分为 14,223 张 1.44MB 软盘,还根据谷歌搜索进行了“双重检查”,增强用户对答案的信心。

而 ChatGPT 的 GPT-3.5 版本,将 Windows 11 的安装大小估计为“几千兆字节”,并直接四舍五入为明显过低的 10GB。GPT-4 好一点,将 Windows 11 估算为 64GB 的安装容量,且跟新版 Bard 一样知道 1GB = 1024MB。

基于此,Ars Technica 认为不论是数学能力还是相关知识方面,新版 Bard 更胜一筹。

(3)总结能力

提示:用一段话概括 [本文前三段文字]

左右滑动,查看测评结果

ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

很明显可以看出,随着 Gemini 的发布,新版 Bard 得到了重大改进。旧版 Bard 只关注 Ralph Baer 的“Brown Box”和 Magnavox Odyssey 作品,甚至信息还是直接摘取自维基百科,而新版 Bard(Gemini)则准确简洁地指出了 William Higinbotham 早先的“双人网球”,还介绍了一些对电子游戏早期发展做出了重大贡献的人物。不过,最后提到 Steve Jobs 和 Steve Wozniak 创造 Apple II 的事情则不着边际。

由 GPT-3.5 驱动的 ChatGPT 跟旧版 Bard 差不多,着重介绍了 Ralph Baer。而 GPT-4 Turbo 则指出电子游戏“不能归功于某一个人”,并将答案扩展至 Higinbotham、Bushnell,以及至关重要的 Steve Russell——1962 年,他在 PDP-1 计算机上开发出了《太空战争》。

围绕这个问题的回答,Ars Technica 指出在目前的免费选项中,新版 Bard 的答案要比 GPT-3.5 好很多,不过要是你愿意付费,GPT-4 Turbo 的回答显然是最好的。

(5)编码能力

提示:编写一个 Python 脚本,在其中输入 "Hello World",然后无休止地创建一个随机重复的字符串。

左右滑动,查看测评结果

新版Bard(Gemini)

GPT-4 优势不明显的原因:它最近变懒了

基于以上测评表现,Ars Technica 得出了以下结论:

相较于 4 月测评的由 PaLM 驱动的旧版 Bard,此次测评中,由 Gemini 驱动的新版 Bard 在各方面的能力都有了明显提升。

在 7 个提问中,ChatGPT 取胜 3 次,Bard 取胜 1 次,二者平局 2 次,以及 1 个有争议的问题(“事实检索能力”中,结果取决于你是将 Gemini 与同样免费的 GPT-3.5 比较,还是与付费的 GPT-4 Turbo 进行比较)。因此总体而言,ChatGPT 在这次的最新测评中,仍然是赢家。

相较于 4 月的测评结果,GPT-4 驱动的 ChatGPT 不再具备巨大优势——有了 Gemini 加持的 Bard,与 GPT-4 版本 ChatGPT 之间的差距明显缩小。

不过 Ars Technica 也补充道,这个评判结果具有一定的主观性,各位读者也可根据测评表现自行判断结果。

例如,部分网友指出:“在 PowerPC 与英特尔的争论中,我觉得 Gemini 的回答更好”,“Gemini 的回答更能反映 2000 年左右 PPC 与英特尔粉丝之间的争论,而 GPT-4 只是提出了许多含糊不清的说法和不实之词。”

因此在不少人看来,Gemini 的表现不输 GPT-4:“与 ChatGPT 相比,Gemini 驱动的 Bard 似乎不相上下甚至更好,它肯定改进了很多。”

但也有人对于 Gemini 不能编码,以及其演示视频造假而耿耿于怀:“Gemini 编码不好是个硬伤,对日常使用来说很不友好”,“有一个事实是,Gemini 的演示视频是伪造的,典型特斯拉风格。”

在众多讨论中,还有一个说法也引起了许多人的关注:“这次 GPT-4 优势不明显的原因还有一个:它最近变懒了。”

基于以上言论和数据,越来越多人开始相信 GPT-4“放寒假”的说法:“天哪,AI 的‘寒假假说’可能是真的?GPT-4 在 12 月份的表现更差,是因为它在假期里‘学会’了自主减少工作。大模型真是一个很奇怪的存在。”

那么对于“GPT-4 变懒”的事情, 你又是如何看待的呢?

参考链接:

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/?comments=1&comments-page=1

https://www.reddit.com/r/ChatGPT/comments/182ubh7/chatgpt_has_become_unusably_lazy/

https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
中国支付清算协会最新发声:支付机构谨慎使用ChatGPT!问题在哪?..
北京商报讯(记者 廖蒙)ChatGPT爆火,在与金融行业碰撞后也暴露了风险。..
ChatGPT“周岁考”:微软发飙,谷歌磨刀
请输入图说既分高下,也决生死撰文/ 陈邓新编辑/ 李觐麟ChatGPT,来到命..
ChatGPT带火相关领域就业,AIGC人才同比增长超20%
北京日报客户端 | 实习记者 夏骅正值金三银四招聘旺季,据猎聘大数据研究..
当心被骗!山寨小程序冒充ChatGPT收费
近日,聊天机器人ChatGPT引发热议,一批名字中包含“ChatGPT”的公众号、..
ChatGPT账号被封?别急,有得救!
从昨天开始,“ChatGPT开启大面积封号”的消息迅速在互联网传开。(左)..
你在热恋,TA在诈骗?速看“杀猪盘”有哪些套路!
近几年骗子瞄准了“恋爱脑”人群#美国大兵恋上我##霸道总裁爱上我#婚恋交..
我们请ChatGPT写了两篇高考作文,结果有点“翻车”
最近谁是全网“顶流”?无疑就是ChatGPT了#上线两个月活跃用户破亿##会取..
专家学者、行业领袖数博会热议ChatGPT:是“利器”,还是“凶器”?..
贵阳网·甲秀新闻讯2023年初以来,ChatGPT成为现象级互联网应用,引发全..
“GPT机器人+”大时代加速来临,服务机器人产业落地“繁荣”可期..
2023年以来,以GPT为代表的多模态大模型得到市场广泛关注,在其快速的演..
关于作者
月深沉(普通会员)
文章
499
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40335 企业收录2981 印章生成195013 电子证书832 电子名片53 自媒体26195

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索