> 自媒体 > (AI)人工智能 > GPT-4远不如人类?正确率仅15%,Meta领衔发布通用AI助手基准
GPT-4远不如人类?正确率仅15%,Meta领衔发布通用AI助手基准
来源:学术头条
2023-11-25 13:04:09
283
管理

当前,大型语言模型(LLMs)或许是通用人工智能(AGI)得以实现的“最优解”。

然而,尽管大模型在流利性和知识广度方面貌似已接近人类水平,但评估它们的挑战日益突显。随着大模型的迅猛发展,一些传统基准已经失效。因此,新的测评基准亟需制定。

近日,来自 Meta、HuggingFace 和 AutoGPT 的研究团队共同提出了一个用于测试通用 AI 助手的基准——GAIA,该基准提出了现实世界中需要一系列基本能力的问题,如推理、多模态处理、网络浏览和通用工具使用熟练技能。

研究团队表示,这些问题在概念上对人类来说非常简单,但对大多数大模型来说,却很有挑战性:一个直观的数据,人类回答这些问题的成功率为 92%,而即使是带有插件的 GPT-4 仅有 15% 的成功率。这与近年来大模型在法律或化学等需要专业技能的任务中表现优于人类的趋势形成了鲜明对比。

相关研究论文以“GAIA:A Benchmark for General AI Assistants”为题,已发表在预印本网站 arXiv 上。

从图中可以看出,人类的网络搜索在 Level 1 方面表现良好,但在更复杂的查询上效果不佳,而且速度稍慢。与没有插件的 GPT-4 相比,使用插件的 GPT-4 在提高答案准确性和执行计划方面表现更好。AutoGPT-4 自动使用工具,但在 Level 2 和甚至 Level 1 方面的表现令人失望,可能是由于其依赖 GPT-4 API 的方式。总体而言,与使用插件的 GPT-4 合作的人类似乎在分数和时间之间找到了最佳的平衡。

评估 AI 助手潜力的第一步

GAIA 的出现让我们重新思考当前和未来 AI 系统评估的范式。

封闭在 API 后面的模型可能会随着时间的推移而改变,这意味着在不同时间点进行的评估可能无法复制或重现。另外,问题可能会更加复杂,因为像 ChatGPT 插件这样的工具和它们的功能会定期更新,而不是通过 ChatGPT 的 API 进行访问。

由于研究人员在评估模型性能时通常依赖于真实世界的基准,而这些基准可能会随着时间的推移而改变,所以实现可重现性可能会变得更加困难。然而,GAIA 对于生成随机性的处理是鲁棒的,因为它只关注最终的答案,即只接受一个正确的响应进行评估。

此外,相较于规模更大但多项选择问题的数据集,GAIA 注重问题质量而非数量。GAIA 的持续发展有望成为更全面评估 AI 系统泛化能力和稳健性的关键组成部分。

GAIA 任务可能涉及调用各种模块来完成,比如图像分类器可能返回错误的标签。有些人可能会觉得这样的评估有些含糊,因为 GAIA 看待系统为一个整体,而不是把错误归因于系统的子部分,比如网络浏览或视觉模块。然而,将 LLMs 与其他工具紧密结合以完成所有任务可能不是可持续的方法。未来的模型可能会在语言模型和其他能力之间更加集成,如视觉语言模型。

GAIA 的目标是评估整个 AI 系统,而不仅仅是特定的架构标准。更广泛地说,对于复杂生成的自动、事实和可解释的评估一直是生成式 AI 中的一个长期难题。

目前的评估方法可能存在一些限制,未来可能需要更复杂的方法,比如结合多模态系统,通过对图像进行复杂的序列修改,并在自然语言中提出明确问题的方式来改进生成模型的评估。

尽管深度学习在各领域取得了进展,但全自动化目前仍面临无法预测的失败,如自动驾驶汽车的挑战。解决 GAIA 问题需要全自动化,但这可能导致社会经济格局的改变,存在技术所有者主导价值捕获的风险。

另外,GAIA 也存在一些局限。首先,GAIA 无法评估不同路径通向正确答案的情况。论文作者建议未来考虑人类和模型评估,以弥补这一缺陷。

此外,由于 OpenAI 的 API 未提供详细工具调用日志,当前只评估了具有工具访问权限的最强大的语言模型。研究团队希望在未来能够在开源领域添加其他具备足够工具使用能力和日志记录的模型。

为了创建现实且易于使用的基准,需要两轮注释,第一轮由注释者设计明确问题,第二轮由两位独立注释者回答问题并排除歧义,尽管这过程彻底,仍可能存在歧义。

最后,GAIA 的一个重大限制在于它缺乏语言多样性:所有问题只能用“标准”英语提出,而且许多问题主要依赖于英语网页。

因此,GAIA 只是评估通用 AI 助手潜力的第一步,不应视为它们成功的绝对证明。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
张家界跳崖事件扒出背后“约死群”,聊天记录流出,内容不寒而栗..
在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能..
网友要我们聊聊ChatGPT,其实都是老知识点了
一时间,关于ChatGPT或将取代搜索引擎,进而取代不少人类从事的工作的说..
GPT4.0概念提前异动,下周会引领人工智能反扑吗?
敬畏市场,保持渴望。大家好,我叫策略为王。3.12日周日复盘。温馨提示:..
微软必应聊天新功能曝光,用自然语言操控Edge浏览器
IT之家 7 月 12 日消息,微软 Edge 浏览器即将推出一项新功能,让用户可..
女老板出轨年轻员工,两人不雅聊天记录曝光,内容露骨不堪入目..
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -第一章..
Gpt4.0对于普通人还有哪些创业机会#创业
Gpt4.0对于普通人的创业机会。作为一款具有强大语言智能的AI技术,GPT-4..
因错误率较高,OpenAI被迫叫停AI内容识别软件
美国政府希望大型人工智能公司能够披露那些使用人工智能创建的内容。另一..
中国版ChatGPT推动百度大涨,炒作还是实质?
“市场情绪将继续引导资本转向任何声称与中国版本ChatGPT相关的事物”。..
法院强制执行如此厉害,连我的微信小号和外省银行卡都被冻结了..
上周,我被本地中院给强制执行了,同一时刻冻结了我的常用微信和银行卡,..
关于作者
冰冷的开水..(普通会员)
文章
358
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186789 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索