> 自媒体 > (AI)人工智能 > GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
来源:新智元
2023-09-28 16:21:23
366
管理

编辑:编辑部

【新智元导读】这个开源工具,居然能用GPT-4代替人类去标注数据,效率比人类高了100倍,但成本只有1/7。

大模型满天飞的时代,AI行业最缺的是什么?毫无疑问一定是算(xian)力(ka)。

老黄作为AI掘金者唯一的「铲子供应商」,早已赚得盆满钵满。

除了GPU,还有什么是训练一个高效的大模型必不可少且同样难以获取的资源?

高质量的数据。OpenAI正是借助基于人类标注的数据,才一举从众多大模型企业中脱颖而出,让ChatGPT成为了大模型竞争中阶段性的胜利者。

但同时,OpenAI也因为使用非洲廉价的人工进行数据标注,被各种媒体口诛笔伐。

表1:Autolabel标注的数据集列表

使用了以下LLM:

表2:用于评估的LLM提供者与模型列表

本研究在三个标准上对LLM和人工标注进行评估:

首先是标签质量,即生成的标签与真实标签之间的一致性;

其次是周转时间,即以秒为单位时,生成标签所花费的时间;

最后是以分为单位,生成每个标签的成本。

对于每个数据集,研究人员都将其拆分为种子集和测试集两部分。

种子集包含200个示例,是从训练分区中随机采样构建的,用于置信度校准和一些少量的提示任务中。

测试集包含2000个示例,采用了与种子集相同的构建方法,用于运行评估和报告所有基准测试的结果。

在人工标注方面,研究团队从常用的数据标注第三方平台聘请了数据标注员,每个数据集都配有多个数据标注员。

此过程分为三个阶段:

研究人员为数据标注员提供了标注指南,要求他们对种子集进行标注。

然后对标注过的种子集进行评估,为数据标注员提供该数据集的基准真相作为参考,并要求他们检查自己的错误。

随后,为数据标注员解释说明他们遇到的标签指南问题,最后对测试集进行标注。

结果

标签质量

标签质量衡量的是生成的标签(由人类或LLM标注者生成)与数据集中提供的基准真相的吻合程度。

对于SQuAD数据集,研究人员用生成标签与基准真相之间的F1分数来衡量一致性,F1是问题解答的常用指标。

对于SQuAD以外的数据集,研究人员用生成标签与基准真相之间的精确匹配来衡量一致性。

下表汇总了各个数据集标签质量的结果:

表4:同一数据集上gpt-3.5-turbo和gpt-4的标签质量与完成率

在校准步骤中,研究人员利用估计置信度来了解标签质量和完成率之间的权衡。

即研究人员为LLM确定了一个工作点,并拒绝所有低于该工作点阈值的标签。

例如,上图显示,在95%的质量阈值下,我们可以使用GPT-4标注约77%的数据集。

添加这一步的原因是token级日志概率在校准方面的效果不佳,如GPT-4技术报告中所强调的那样:

GPT-4模型的校准图:比较预训练和后RLHF版本的置信度和准确性

使用上述置信度估算方法,并将置信度阈值设定为95%的标签质量(相比之下,人类标注者的标签质量为86%),得到了以下数据集和LLM的完成率:

95%与基准真相一致的完成率

相比之下,人类标注者与基准真相的一致性为86.6%。

从上图可以看到在所有数据集中,GPT-4的平均完成率最高,在8个数据集中,有3个数据集的标注质量超过了这一质量阈值。

而其他多个模型(如text-bison@001、gpt-3.5-turbo、claude-v1和flan-t5-xxl)也实现了很好的性能:

平均至少成功自动标注了50%的数据,但价格却只有GPT-4 API成本的1/10以下。

未来更新的方向

在接下来的几个月中,开发者承诺将向Autolabel添加大量新功能:

支持更多LLM进行数据标注。

支持更多标注任务,例如总结等。

支持更多的输入数据类型和更高的LLM输出稳健性。

让用户能够试验多个LLM和不同提示的工作流程。

参考资料:

https://www.refuel.ai/blog-posts/introducing-autolabel

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
GPT-4震惊四座,中国创业者激战“小模型” | Future
当瓦特蒸汽机的齿轮转动了第一圈;当乔布斯从牛皮纸袋掏出Macbook;当Cha..
“成都不雅聊天事件”真相大白,陈副区长被实锤,官方如此处置..
2022年的12月中旬,一男一女之间的十几张聊天记录出现在了网上,其内容之..
引领人工智能革命的程序员、OpenAI 的秘密武器 Greg Brockman..
作者 | Tina编辑 | TinaGreg Brockman 因担任 OpenAI 联合创始人兼首席..
大招or刷榜?OpenAI耗资8500万炼出的GPT3,它真的不香吗
于是,咱们也照猫画虎来给GPT系列做一个这样的提交史,不光能回顾一下GPT..
朱璘:ChatGPT背后是颠覆性技术,中国AI差距在哪
近期ChatGPT突然爆火,2个月内猛增1亿用户,科技巨头争相布局业务,大量..
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?..
机器之心专栏机器之心编辑部多智能体代码库 CAMEL,提出了通过角色扮演框..
美国一款聊天机器人“性骚扰”用户,主动发送露骨照片和色情信息..
极目新闻记者 孙喆近来,美国初创公司推出的人工智能(AI)聊天机器人Rep..
学会万能聊天法则,不再担心没话聊
大家在生活中有没有遇到过这样的场景,就是跟对方聊天的时候,突然就没有..
AI何以“智慧”?这场直面ChatGPT及大模型的会议或有答案..
封面新闻记者 边雪最近,热闹都是国内生成式人工智能服务行业的:阿里云..
关于作者
烽火(普通会员)
文章
441
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40335 企业收录2981 印章生成193705 电子证书831 电子名片53 自媒体26178

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索