一觉醒来,万众期待的GPT-4终于发布了,我们来看看他都有哪些迭代,给了我们哪些惊喜,又有哪些还没解决的问题呢?
作为一个重要的迭代升级版本,GPT-4相对于上一代而言,在多个性能上有显著的提升,这没有让我们失望。具体来看,关键的升级主要是以下几个方面:
惊喜1、文字输入限制提升至2.5万字上一个版本,输入的文字不能超过3000字,而GPT-4将这一限制提升到了2.5万字。这个提升,将进一步扩展其应用范围。输入的不再限制于问题,用户可以直接输入文本内容,比如一篇文章甚至一篇报告。
惊喜2、可以输入图片了上一代产品只能输入文本内容,此次更新升级,可以输入图片内容了。
比如,在此次发布的GPT-4,展示了下面这个例子。
用户:这张图有什么好笑的?
惊喜3、更聪明、更准确为了了解这两种模型之间的差异,OpenAI在各种基准测试上进行了实验,包括最初为人类设计的模拟考试。OpenAI继续使用最新的公开测试(在奥林匹克和AP免费回答问题的情况下)或购买2022-2023版的模拟考试。
测试结果如下:
可以发现,当任务的复杂性达到足够的阈值时,GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
此外,OpenAI还在为机器学习模型设计的传统基准测试上评估了 GPT-4。GPT-4 的性能大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,具体比较如下表:
从上述结果可以发现,GPT-4 可以用更少的计算量来实现更准确的预测。
此外,OpenAI成功预测了HumanEval数据集子集的通过率,从计算量减少 1000 倍的模型推断,其结果如下:
根据结果来看,GPT-4仅比GPT-3.5好一点点,并没有显著的提升。
此次发布会,除了GPT-4本身技术性能的提升以外,还有一个很重要的看点,那就是其商业化进展。从微软近期的动作来看,他是准备在GPT-4基础上大干一场。在数据猿先前发布的文章《先用ChatGPT革自己的命,然后干翻所有人!微软要“梭哈”了!》中,整理了微软近期将ChatGPT与其业务体系整合的情况,可以发现,微软的很多业务都已经可以看到ChatGPT的身影。
大规模预训练模型这个赛道异常热闹,尤其是OpenAI可以说已经成为科技界的明星。然而,大模型的竞赛才刚刚开始,鹿死谁手犹未可知。
GPT-4再好,也是别人的东西,我们当然更期待中国自己的大模型。
正好,百度将在明天(3月16日)发布文心一言,让我们小小期待一下吧。
所以,压力给到百度了。
往期精彩文章:
先用ChatGPT革自己的命,然后干翻所有人!微软要“梭哈”了!
★关注数据猿公众号,后台回复“GPT4技术报告”获取最新98页报告原文。
文:月满西楼 / 数据猿
相关文章
猜你喜欢