当GPT-4化身主考官：与ChatGPT处于同水平的有这些-脚本导航

> 自媒体 > （AI）人工智能 > 当GPT-4化身主考官：与ChatGPT处于同水平的有这些

当GPT-4化身主考官：与ChatGPT处于同水平的有这些

来源：量子位

2023-04-17 09:44:37

459

管理

魏亦豪投稿自

量子位 | 公众号 QbitAI

GPT-4太强，甚至已经化身“主考官”了！

给其他市面上主流的大模型打分，结果自己给了自己最高分：

95.5。（好，给自己留点努力的空间）

不过随后就没有上90的选手了。就连它的“前辈”ChatGPT（GPT-3.5），它也只给了89.1分。

随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B，以及清华系开源模型ChatGLM-6B。

所提供的回答清晰准确地概括了《杀死一只知更鸟》的情节，并指出了主要主题。情节概括简洁明了，捕捉到了故事的核心元素。主要主题解释得很好，它们与小说的关联显而易见。得分：100/100

同样的问题给到GPT-4的回答也拿到了满分，而ChatGPT，Claude，Vicuna的回答分数分别为95，96，90，可以说是在统一水准上，都提供了清晰准确的情节概括，涉及到故事中的主要事件和人物，同时也捕捉到了小说中的主题。回答简洁且条理清晰，使得对于可能不熟悉故事的读者也容易理解。

相比之下，GPT-4认为ChatGLM给出的答案并不尽如人意。

GPT-4认为相关情节和人物存在错误信息。这个概括并没有准确地反映小说的内容，部分提到的主题与故事无关，因此只给了20分。

可以看到，GPT-4首先分析了这段代码的用途和实现方式，随后提出了一些提高代码性能和可读性的建议。不仅如此，GPT-4还给出了修改后的代码，可以说是答的非常完善了：

相比之下，其他模型这一题上的表现差距比较明显。

ChatGPT的回答同样捕捉到了使用ThreadPoolExecutor来管理线程的优化建议，但在提高可读性方面犯了一个小错误，被GPT-4抓到，因此打了85分。

GPT-4的评价，以上回答提出了一些改进性能的方法，但有部分是不成立的：

建议使用多进程模块而不是线程。然而，这个建议并不适用于给定的问题，因为问题并不涉及CPU-bound任务，而原始代码使用线程是合适的。

为此还专门提供了具体的增强可读性的建议：使用更具描述性的变量名；使用适当的缩进和间距（尽管原始代码已经格式化得很好）；使用注释来解释代码等。

可以看到，GPT-4发现Bard的回答中有些不必要的改进建议，相比之下ChatGPT犯的错误更少。而Claude和ChatGLM两个模型给出的答案在GPT-4看来就不太“及格”了。

让我们看看Claude的答案：

GPT-4高度肯定了Claude的回复，还比较了跟自己的异同。

第一个回答（GPT-4）准确地识别出讽刺，并提供了一个合适、礼貌、鼓励的回复，邀请进行更多的对话。

第二个回应也准确地识别出讽刺，并提供了两个与讽刺和幽默相呼应的替代回应，同时解释了用于创造讽刺和幽默的关键元素。第一个回应更注重保持积极、引人入胜的语调，而第二个回应则以更俏皮的方式充分拥抱讽刺和幽默。

谷歌Bard：拒绝回答一道题

最终这几个模型在10个问题上的综合得分为：

GPT-4：(100 100 100 95 95 85 95 95 95 95) / 10 = 95.5ChatGPT：(95 98 100 93 85 80 85 85 85 85) / 10 = 891 / 10 = 89.1Claude：(96 94 95 92 86 82 50 95 88 94) / 10 = 87.2Bard：(100 85 100 90 87 82 70 80 80) / 9 = 86Vicuna-13B：(90 65 92 94 84 76 75 87 80 88)/10 = 83.1ChatGLM-6B: (20 50 92 75 72 78 30 70 35 82) / 10 = 60.4

（Bard在第9题「描述植物光合作用的过程」上拒绝提供任何信息（As a language model, I’m not able to assist you with that.），因此就只算了9道题）

每道题上面的表现为：

可以看到，GPT-4是唯一得分超过90分的模型。

这和我们目前的认知也是比较符合的，目前GPT-4的能力确实是独一档。

ChatGPT仍是GPT-4之下的领头羊，只差一步就达到90分的门槛。Claude和Bard紧随其后，它们各有特点，长处和短板都非常明显。

Claude在ethical（伦理道德）和文学方面已经超过ChatGPT，甚至可以说接近GPT-4，但在代码能力上被其他同水平模型甩出一大截，这与之前网上其他测评的结论也是比较一致的。

Bard和ChatGPT一样得分比较平均，但大多数都被ChatGPT压一头。

可以说这三个模型已经是在同一水平线上，只是ChatGPT略胜一筹，没有什么短板。

另外比较惊喜的是Vicuna-13B作为拿ChatGPT生成的数据“克隆“的模型，在模型参数小ChatGPT一个量级的情况下，也能达到83分，是一个非常不错的成绩了。相比之下，ChatGLM-6B只拿到了一个合格的分数，我们从它的答题情况上来看，确实能比较明显地感觉到和其他模型的差距。

不过GPT-4作为出题者，可能包含一些对于自己答案的bias，（虽然GPT-4并不知道哪个是自己的答案），但笔者仔细检查了GPT-4对于每个答案的评价，可以说还是相对非常客观的。

不知各位读者看了之后觉得如何？

如果你来做这10道题，你能从GPT-4手下拿到多少分呢？

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

周鸿祎谈ChatGPT：六大观点、四大挑战、两大预测、一大战略

2023-04-17 09:45

全民国家安全教育日｜「图解」敲黑板！警惕这些有关ChatGPT的最新骗局

2023-04-17 09:41