> 自媒体 > (AI)人工智能 > 当GPT-4化身主考官:与ChatGPT处于同水平的有这些
当GPT-4化身主考官:与ChatGPT处于同水平的有这些
来源:量子位
2023-04-17 09:44:37
419
管理

魏亦豪 投稿自

量子位 | 公众号 QbitAI

GPT-4太强,甚至已经化身“主考官”了!

给其他市面上主流的大模型打分,结果自己给了自己最高分:

95.5。(好,给自己留点努力的空间)

不过随后就没有上90的选手了。就连它的“前辈”ChatGPT(GPT-3.5),它也只给了89.1分。

随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B,以及清华系开源模型ChatGLM-6B。

所提供的回答清晰准确地概括了《杀死一只知更鸟》的情节,并指出了主要主题。情节概括简洁明了,捕捉到了故事的核心元素。主要主题解释得很好,它们与小说的关联显而易见。得分:100/100

同样的问题给到GPT-4的回答也拿到了满分,而ChatGPT,Claude,Vicuna的回答分数分别为95,96,90,可以说是在统一水准上,都提供了清晰准确的情节概括,涉及到故事中的主要事件和人物,同时也捕捉到了小说中的主题。回答简洁且条理清晰,使得对于可能不熟悉故事的读者也容易理解。

相比之下,GPT-4认为ChatGLM给出的答案并不尽如人意。

GPT-4认为相关情节和人物存在错误信息。这个概括并没有准确地反映小说的内容,部分提到的主题与故事无关,因此只给了20分。

可以看到,GPT-4首先分析了这段代码的用途和实现方式,随后提出了一些提高代码性能和可读性的建议。不仅如此,GPT-4还给出了修改后的代码,可以说是答的非常完善了:

相比之下,其他模型这一题上的表现差距比较明显。

ChatGPT的回答同样捕捉到了使用ThreadPoolExecutor来管理线程的优化建议,但在提高可读性方面犯了一个小错误,被GPT-4抓到,因此打了85分。

GPT-4的评价,以上回答提出了一些改进性能的方法,但有部分是不成立的:

建议使用多进程模块而不是线程。然而,这个建议并不适用于给定的问题,因为问题并不涉及CPU-bound任务,而原始代码使用线程是合适的。

为此还专门提供了具体的增强可读性的建议:使用更具描述性的变量名;使用适当的缩进和间距(尽管原始代码已经格式化得很好);使用注释来解释代码等。

可以看到,GPT-4发现Bard的回答中有些不必要的改进建议,相比之下ChatGPT犯的错误更少。而Claude和ChatGLM两个模型给出的答案在GPT-4看来就不太“及格”了。

让我们看看Claude的答案:

GPT-4高度肯定了Claude的回复,还比较了跟自己的异同。

第一个回答(GPT-4)准确地识别出讽刺,并提供了一个合适、礼貌、鼓励的回复,邀请进行更多的对话。

第二个回应也准确地识别出讽刺,并提供了两个与讽刺和幽默相呼应的替代回应,同时解释了用于创造讽刺和幽默的关键元素。第一个回应更注重保持积极、引人入胜的语调,而第二个回应则以更俏皮的方式充分拥抱讽刺和幽默。

谷歌Bard:拒绝回答一道题

最终这几个模型在10个问题上的综合得分为:

GPT-4:(100 100 100 95 95 85 95 95 95 95) / 10 = 95.5ChatGPT:(95 98 100 93 85 80 85 85 85 85) / 10 = 891 / 10 = 89.1Claude:(96 94 95 92 86 82 50 95 88 94) / 10 = 87.2Bard:(100 85 100 90 87 82 70 80 80) / 9 = 86Vicuna-13B:(90 65 92 94 84 76 75 87 80 88)/10 = 83.1ChatGLM-6B: (20 50 92 75 72 78 30 70 35 82) / 10 = 60.4

(Bard在第9题「描述植物光合作用的过程」上拒绝提供任何信息(As a language model, I’m not able to assist you with that.),因此就只算了9道题)

每道题上面的表现为:

可以看到,GPT-4是唯一得分超过90分的模型。

这和我们目前的认知也是比较符合的,目前GPT-4的能力确实是独一档。

ChatGPT仍是GPT-4之下的领头羊,只差一步就达到90分的门槛。Claude和Bard紧随其后,它们各有特点,长处和短板都非常明显。

Claude在ethical(伦理道德)和文学方面已经超过ChatGPT,甚至可以说接近GPT-4,但在代码能力上被其他同水平模型甩出一大截,这与之前网上其他测评的结论也是比较一致的。

Bard和ChatGPT一样得分比较平均,但大多数都被ChatGPT压一头。

可以说这三个模型已经是在同一水平线上,只是ChatGPT略胜一筹,没有什么短板。

另外比较惊喜的是Vicuna-13B作为拿ChatGPT生成的数据“克隆“的模型,在模型参数小ChatGPT一个量级的情况下,也能达到83分,是一个非常不错的成绩了。相比之下,ChatGLM-6B只拿到了一个合格的分数,我们从它的答题情况上来看,确实能比较明显地感觉到和其他模型的差距。

不过GPT-4作为出题者,可能包含一些对于自己答案的bias,(虽然GPT-4并不知道哪个是自己的答案),但笔者仔细检查了GPT-4对于每个答案的评价,可以说还是相对非常客观的。

不知各位读者看了之后觉得如何?

如果你来做这10道题,你能从GPT-4手下拿到多少分呢?

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
毁三观!云南一女大学生被多人包养, 聊天记录被曝光, 内容不堪入目..
以前谈恋爱都是介绍,现在谈恋爱都是网恋。在云南某财经大学,有一位美丽..
定位ChatGPT中文版的元语智能,宣战不久已“翻车”
伴随ChatGPT在国内外的火热,站队者与挑战者相继现身。近日,号称国内首..
如何使用微信的边写边译和语音转文字功能与外国朋友无障交流..
#头条创作挑战赛#对于因工作需要而经常要和国外朋友沟通交流的小伙伴来说..
这种“爆料吃瓜群”慎入!你的群组已被出售……
为了吸粉引流增加自己账号的粉丝数量有人利用公众猎奇吃瓜的心理编造虚假..
2分钟,让我们了解最基本的AI概念(5)#openai
让我们继续。·24. 异常检测(Anomaly Detection):异常检测是AI的一个子..
你的ChatGPT数据能不被拿去训练模型了!代价是「只聊天不记录」..
明敏 发自 凹非寺量子位 | 公众号 QbitAIChatGPT出新规了。似乎是为了应..
1分钟1美元!美国网红利用GPT打造虚拟女友,一周收入7万美元..
据了解,CarynAI于5月初正式推出,用户可以通过Telegram平台与她聊天。此..
双雪涛:ChatGPT帮助人意识到“我干的到底是什么和自己到底是谁”..
界面新闻记者 | 徐鲁青界面新闻编辑 | 黄月我们与故事的关系是什么?《平..
小情侣:不堪入目的聊天记录,网友:看完不知道说什么..
雷声般的情话响起:“你是我的全世界。”当这句话在耳边轻轻响起,我整个..
关于作者
酷匠(普通会员)
文章
633
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索