> 自媒体 > (AI)人工智能 > 震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试
震撼!GPT-4来了,支持多模态,全面吊打ChatGPT,完虐标准化考试
来源:智东西
2023-04-06 13:41:51
492
管理

智东西

编译 | ZeR0

编辑 | 漠影

智东西3月15日消息,今日凌晨,万众瞩目的大型多模态模型GPT-4正式发布!

OpenAI发文称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。

它强大到什么程度呢?输入一张手绘草图,GPT-4能直接生成最终设计的网页代码。

它以高分通过各种标准化考试:SAT拿下700分,GRE几乎满分,逻辑能力吊打gpt-3.5。

申请直通门:http://t.cn/A6ClOHn7

随着时间的推移,OpenAI会将其自动更新为推荐的稳定模型(你可以通过调用gpt-4-0314来锁定当前版本,OpenAI将支持到6月14日)。定价是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默认速率限制是每分钟40k tokens和每分钟200个请求。

gpt-4的上下文长度为8192个tokens。还提供对32768个上下文(约50页文本)版本gpt-4-32k的有限访问,该版本也将随着时间的推移自动更新(当前版本gpt-4-32k-0314,也将支持到6月14日)。价格是每1k prompt tokens 0.06美元,每1K completion tokens 0.12美元。

此外,OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals,以便开发者更好的评测模型的优缺点,从而指导团队进一步改进模型。

开源地址:github.com/openai/evals

一、GPT-4升级成“考霸”,基准测试表现大大优于现有大模型

如果是随意聊天,你可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,OpenAI在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。他们使用了最新的公开试题(在奥林匹克竞赛和AP自由答题的情况下)或购买 2022-2023年版的模拟考试题。

OpenAI没有针对这些考试进行专门训练。在模型训练期间,考试中的少数问题被发现。但OpenAI认为结果具有代表性。详情可参见GPT-4论文(https://cdn.openai.com/papers/gpt-4.pdf)。

2、根据图表,推理作答

用户问格鲁吉亚和西亚的平均每日肉类消费量总和是多少,让GPT-4在给答案前提供一个循序渐进的推理,GPT-4也能按需作答。

6、解读“鸡块地图”

让GPT-4解释图中的模因(meme),GPT-4回答说这是个笑话,结合了太空中的地球照片和鸡块这两个不相关的东西。

第三个示例是让GPT-4成为一名AI助手,总是用json编写响应输出,然后GPT-4的回答画风就变成了这样:

三、迄今最好的真实性、稳定性、可控性

OpenAI称其团队花了6个月的时间,使用对抗性测试程序和从ChatGPT得到的经验教训,对GPT-4进行迭代调整,在真实性、可控制性等方面取得了有史以来最好的结果(仍远非完美)。

过去两年里,OpenAI重建了整个深度学习堆栈,并与微软Azure云平台一起为其工作负载从头开始共同设计了一台超级计算机。

一年前,OpenAI训练GPT-3.5作为系统的第一次“试运行”,发现并修复了一些错误并改进了其理论基础。结果,GPT-4训练运行(至少对OpenAI而言)前所未有地稳定,成为OpenAI能够提前准确预测其训练性能的第一个大型模型。

随着继续专注于可靠的扩展,OpenAI的目标是完善其方法,以帮助自身越来越多地提前预测和准备未来的能力。OpenAI认为这对安全至关重要。

与以前的GPT模型一样,GPT-4基础模型经过训练可以预测文档中的下一个单词,并且使用公开可用的数据(例如互联网数据)以及OpenAI已获得许可的数据进行训练。这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。

因此,当有问题提示时,基础模型能以多种方式进行响应,这些方式可能与用户意图相去甚远。为了使其与护栏(guardrails)内的用户意图保持一致,OpenAI使用人类反馈强化学习(RLHF)对模型行为进行微调。

需注意的是,模型的能力似乎主要来自预训练过程——RLHF并不会提高考试成绩(如果不积极努力,它实际上会降低考试成绩)。但是模型的控制来自训练后的过程——基础模型需要快速的工程设计来知道它应该回答问题。

四、GPT-4的局限性:不完全可靠

尽管功能更加强大,但GPT-4与早期的GPT模型具有相似的局限性。

最重要的是,它仍然不完全可靠(存在事实性“幻觉”并出现推理错误)。在使用语言模型输出时应格外小心,特别是在高风险上下文中,使用符合特定用例需求的确切协议(例如人工审查、附加上下文的基础或完全避免高风险使用) 。

不过,GPT-4相对于以前的模型(它们本身在每次迭代中都在改进)显著减少了幻觉。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比 GPT-3.5高40%。

OpenAI在TruthfulQA等外部基准测试上取得了进展,它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案相匹配,这些答案在统计上很有吸引力。

总的来说,OpenAI的模型级干预提高了引发不良行为的难度,但依然无法做到完全规避。OpenAI强调目前需用部署时安全技术(如监控滥用)来补充这些限制。

GPT-4和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI正在与外部研究人员合作,以改进理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估,并将很快分享更多关于GPT-4和其他AI系统的潜在社会和经济影响的想法。

六、构建可预测扩展的深度学习堆栈

GPT-4项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是,对于像GPT-4这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的。OpenAI开发的基础设施和优化在多个尺度上具有非常可预测的行为。

为了验证这种可扩展性,OpenAI通过从使用相同方法训练但计算量减少到原来的1/10000的模型进行推断,准确预测了GPT-4在其内部代码库(不属于训练集)上的最终损失:

现在OpenAI可以准确地预测其在训练期间优化的指标(损失),开始开发方法来预测更多可解释的指标,例如成功预测了HumanEval数据集子集的通过率,从计算量减少至原来的1/1000的模型推断:

有些能力仍难以预测。例如Inverse Scaling Prize是一项竞赛,目的是寻找随着模型计算量的增加而变得更糟的度量指标,而hindsight neglect是获胜者之一。就像最近的另一个结果一样,GPT-4扭转了趋势:

OpenAI认为,准确预测未来的机器学习能力是安全的重要组成部分,但相对于其潜在影响而言,它并没有得到足够的重视。OpenAI正在加大力度开发方法,为社会提供更好的未来系统预期指导,并希望这成为该领域的共同目标。

七、开源软件框架Evals,用于评估GPT-4

OpenAI正在开源其软件框架OpenAI Evals,用于创建和运行基准测试以评估GPT-4等模型,同时逐个样本地检查它们的性能。

OpenAI使用Evals来指导其模型的开发,其用户可以应用该框架来跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成。例如Stripe 使用Evals来补充他们的人工评估,以衡量其基于GPT的文档工具的准确性。

因为代码都是开源的,所以Evals支持编写新的类来实现自定义评估逻辑。但根据OpenAI的经验,许多基准测试都遵循少数“模板”之一,所以他们也囊括了内部最有用的模板(包括“模型分级评估”的模板——OpenAI发现GPT-4在检查自己的工作方面惊人地强大)。通常构建新eval最有效的方法是实例化这些模板之一,并提供数据。

OpenAI希望Evals成为一种共享和众包基准测试的工具,代表最广泛的故障模式和困难任务。作为示例,OpenAI创建了一个逻辑难题eval,其中包含十个GPT-4失败的提示。Evals也兼容现有的基准测试;OpenAI已有一些实现学术基准的笔记本和一些集成CoQA(小子集)的变体作示例。

OpenAI邀请每个人都使用Evals来测试其模型,提交最有趣的示例,给与贡献、问题和反馈。

结语:OpenAI扩展深度学习的最新里程碑

GPT-4是OpenAI在扩展深度学习道路上的最新里程碑。OpenAI期待GPT-4成为一个有价值的工具,通过为许多应用提供动力来改善生活。

正如OpenAI所言,前方还有很多工作要做,这需要通过社区在模型之上构建、探索和贡献的集体努力,来持续将模型变得越来越强。

来源:OpenAI

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
AI比我懂中文?BAT的新战争进行中
今年以来,AIGC(AI 生产内容)成了新的互联网潮头,就如同年初大火的 We..
一个小工具助你检测账号#chatgpt
一个小工具可以帮助你检测账号的权重。如果你的账号播放量一直停留在四五..
曝光!女老师出轨20多人,聊天记录更是不堪入目。内情曝光!..
#头条创作挑战赛#在山西太原的一位女老师,被她的丈夫发现与一位体育老师..
撩妹对话情话撩妹套路,这4组对话,足够撩到她
不知不觉爱情就已经对你敲门了,如果你打开这扇门之后,可能就会发现有另..
宜昌警方打掉一“网络交友”诈骗中老年人团伙,抓获15人..
极目新闻记者 刘俊华通讯员 陈娅君 章华蓉近日,湖北省宜都市公安局通报..
女董事长出轨拳击教练,两人不雅聊天记录曝光,内容太露骨..
【初心】初心如古井,淳朴又善良。饭店夫妻同作,日子平静永长。张鹏满足..
Bing抢先ChatGPT支持识图功能,不仅能看懂梗图,还能「看病」..
▲ GPT-4 回答 Demo,由机器翻译GPT-4 支持图片输入,可以看懂梗图、看懂..
德国考虑“封杀”ChatGPT!意大利副总理:对ChatGPT的禁令有些过分了..
每经编辑:毕陆名德国也在考虑屏蔽ChatGPT。4月3日周一,德国联邦数据保..
盘点世界上用户最多的聊天软件,微信在它面前被秒成渣..
在互联网深度发展的今天,人与人之间的交流绝大部分被移动社交占据。据相..
关于作者
搞印刷的黄先..(普通会员)
文章
358
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186786 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索