> 自媒体 > (AI)人工智能 > 「真实网络世界」测试场:GPT-4的智能体也只能跑10.59%成功率
「真实网络世界」测试场:GPT-4的智能体也只能跑10.59%成功率
来源:机器之心Pro
2023-08-01 11:47:24
443
管理

机器之心报道

编辑:陈萍

大模型能在网上完成人类给的任务吗?新的 Benchmark 来了。

随着生成式 AI 的发展,利用大语言模型构建 AI 智能体逐渐走红。比如斯坦福、谷歌联合构建了一个具有 25 个 AI 智能体的「虚拟小镇」,「小镇居民」的行为比人类角色扮演的更加真实,甚至举办了一场情人节派对。

又比如商汤、清华等机构提出的通才 AI 智能体 Ghost in the Minecraft (GITM),在《我的世界》中比以往所有智能体都有更优秀的表现……

这些 AI 智能体的先后涌现,甚至让人认为是未来通用人工智能(AGI)的雏形。

然而,有些智能体主要是在简化的合成环境中创建和测试的,这极大地限制了它们在现实场景中的应用。强如 ChatGPT,也只能通过插件的方式与互联网进行有限的互动。

本文,来自卡耐基梅隆大学(CMU)等机构的研究者引入了一个逼真且可复现的网络环境 WebArena,旨在促进研究者开发能够执行各种任务的自主智能体。

论文地址:https://arxiv.org/pdf/2307.13854.pdf

论文主页:https://webarena.dev/#try-it-yourself

项目地址:https://github.com/web-arena-x/webarena

基于 WebArena 环境,该研究发布了一组基准任务,重点是评估智能体完成任务的准确率。此外,他们还设计并实现了几个自主智能体,这些智能体集成了最先进的技术。

结果表明,在 WebArena 环境中,本文设计的智能体在解决复杂问题任务上的性能较差,即本文设计的基于 GPT-4 的智能体在端到端任务上的成功率只有 10.59%。

由此看来,进一步开发更具鲁棒性的智能体还是很必要的,当前最先进的 LLM 在现实任务中还远远不够,以后,研究者可以借助 WebArena 来衡量基于 LLM 的智能体发展。

WebArena 网络环境概述如图 1 所示,其包含四个网络应用程序:在线购物、论坛讨论、协作开发以及业务内容管理。

除了这些平台,该研究还选择了三种在网络任务中经常使用的实用工具:

地图,用于导航和搜索有关兴趣点(POIs)的信息,比如机构或位置;

计算器;

便签本,用于记录笔记。

此外,该研究还将各种知识资源纳入 WebArena 环境中。这些资源的范围从一般的信息库如维基百科,到更专业的知识库如网站用户手册。

该研究还设计了观测数据,包括网页的 URL 和内容部分,此外,他们还提供了多种选项来表示内容:可以将内容表示为屏幕截图(左侧)、HTML DOM 树(中间)和 accessibility tree(右侧)。

动作空间

该研究设计了一个复合动作空间,模拟网页上可用的键盘和鼠标操作。表格 1 列出了所有可用的动作,分为三个不同的组别。第一类包括基本操作,如点击、悬停、输入文本和组合键按下。第二类包括选项卡管理动作,如打开、关闭和在选项卡之间切换。第三类包含 URL 导航动作,例如访问特定的 URL 或在浏览历史中前进和后退。

下表为本文基准和现有基准上的比较。

参考链接:

https://twitter.com/shuyanzhxyc/status/1683917253597855744

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT引领突破!人工智能加速度,中国企业紧紧跟住
来源:环球时报 【环球时报报道 记者 杨沙沙 赵觉珵 倪浩 丁雅栀 甄翔】..
在网上和陌生人社交聊天的主流APP
大家都知道,现在是一个社交网络的时代。在中国社交网络的使用率超过了90..
谷歌将推出对话机器人 Bard 对抗 ChatGPT
品玩2月7日讯,据 CNBC 报道,谷歌近日公布了名为 Bard 的 AI聊天技术,..
ChatGPT消灭全球3亿打工人!高盛重磅预测:25%岗位将被AI取代..
编辑:编辑部【新智元导读】高盛又发报告称,全球3亿打工人恐被AI替代。..
当GPT-4反思自己错了:性能提升近30%,编程能力提升21%..
机器之心报道机器之心编辑部GPT-4 的思考方式,越来越像人了。人类在做错..
国内大模型在局部能力上,已超ChatGPT
AI浪潮已经席卷国内外,在国内,许多厂商或互联网大厂更是争相布局大模型..
Open AI前首席执行官阿尔特曼将入职微软,“宫斗”大戏迎来大结局?..
深圳商报·读创客户端首席记者 袁静娴 记者 张郗郡刚过去的周末,Open AI..
AI创造“数字生命”?小伙用人工智能“复活”去世奶奶..
对于每个世人来说,生死都是不可避免的。不论是谁,自己的内心总会有一块..
一文看懂 什么是ChatGPT-4及如何使用
#大有学问#虽然自人工智能科技公司OpenAI发布ChatGPT以来,仅仅过去了四..
关于作者
小北(普通会员)
文章
353
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成187226 电子证书796 电子名片49 自媒体21062

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索