GPT-4终结人工标注！AI标注比人类标注效率高100倍，成本仅1/7-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4终结人工标注！AI标注比人类标注效率高100倍，成本仅1/7

GPT-4终结人工标注！AI标注比人类标注效率高100倍，成本仅1/7

来源：新智元

2023-09-28 16:21:23

566

管理

编辑：编辑部

【新智元导读】这个开源工具，居然能用GPT-4代替人类去标注数据，效率比人类高了100倍，但成本只有1/7。

大模型满天飞的时代，AI行业最缺的是什么？毫无疑问一定是算（xian）力（ka）。

老黄作为AI掘金者唯一的「铲子供应商」，早已赚得盆满钵满。

除了GPU，还有什么是训练一个高效的大模型必不可少且同样难以获取的资源？

高质量的数据。OpenAI正是借助基于人类标注的数据，才一举从众多大模型企业中脱颖而出，让ChatGPT成为了大模型竞争中阶段性的胜利者。

但同时，OpenAI也因为使用非洲廉价的人工进行数据标注，被各种媒体口诛笔伐。

表1：Autolabel标注的数据集列表

使用了以下LLM：

表2：用于评估的LLM提供者与模型列表

本研究在三个标准上对LLM和人工标注进行评估：

首先是标签质量，即生成的标签与真实标签之间的一致性；

其次是周转时间，即以秒为单位时，生成标签所花费的时间；

最后是以分为单位，生成每个标签的成本。

对于每个数据集，研究人员都将其拆分为种子集和测试集两部分。

种子集包含200个示例，是从训练分区中随机采样构建的，用于置信度校准和一些少量的提示任务中。

测试集包含2000个示例，采用了与种子集相同的构建方法，用于运行评估和报告所有基准测试的结果。

在人工标注方面，研究团队从常用的数据标注第三方平台聘请了数据标注员，每个数据集都配有多个数据标注员。

此过程分为三个阶段：

研究人员为数据标注员提供了标注指南，要求他们对种子集进行标注。

然后对标注过的种子集进行评估，为数据标注员提供该数据集的基准真相作为参考，并要求他们检查自己的错误。

随后，为数据标注员解释说明他们遇到的标签指南问题，最后对测试集进行标注。

结果

标签质量

标签质量衡量的是生成的标签（由人类或LLM标注者生成）与数据集中提供的基准真相的吻合程度。

对于SQuAD数据集，研究人员用生成标签与基准真相之间的F1分数来衡量一致性，F1是问题解答的常用指标。

对于SQuAD以外的数据集，研究人员用生成标签与基准真相之间的精确匹配来衡量一致性。

下表汇总了各个数据集标签质量的结果：

表4：同一数据集上gpt-3.5-turbo和gpt-4的标签质量与完成率

在校准步骤中，研究人员利用估计置信度来了解标签质量和完成率之间的权衡。

即研究人员为LLM确定了一个工作点，并拒绝所有低于该工作点阈值的标签。

例如，上图显示，在95%的质量阈值下，我们可以使用GPT-4标注约77%的数据集。

添加这一步的原因是token级日志概率在校准方面的效果不佳，如GPT-4技术报告中所强调的那样：

GPT-4模型的校准图：比较预训练和后RLHF版本的置信度和准确性

使用上述置信度估算方法，并将置信度阈值设定为95%的标签质量（相比之下，人类标注者的标签质量为86%），得到了以下数据集和LLM的完成率：

95%与基准真相一致的完成率

相比之下，人类标注者与基准真相的一致性为86.6%。

从上图可以看到在所有数据集中，GPT-4的平均完成率最高，在8个数据集中，有3个数据集的标注质量超过了这一质量阈值。

而其他多个模型（如text-bison@001、gpt-3.5-turbo、claude-v1和flan-t5-xxl）也实现了很好的性能：

平均至少成功自动标注了50%的数据，但价格却只有GPT-4 API成本的1/10以下。

未来更新的方向

在接下来的几个月中，开发者承诺将向Autolabel添加大量新功能：

支持更多LLM进行数据标注。

支持更多标注任务，例如总结等。

支持更多的输入数据类型和更高的LLM输出稳健性。

让用户能够试验多个LLM和不同提示的工作流程。

参考资料：

https://www.refuel.ai/blog-posts/introducing-autolabel

1

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4：我写的代码你敢用吗？研究表明其API误用率超过62%

2023-09-28 16:23

Meta计划曝光：下一个大模型以GPT-4为标准，2024年开始训练

2023-09-28 16:19

相关文章

ChatGPT爆火之后，人工智能真的会取代人类工作吗？

最近，ChatGPT可谓是火爆全球，它强大的语言处理能力和智能交互功能，让..

ChatGPT时代：人工智能是威胁还是机遇？

随着ChatGPT的爆火，人工智能再次成为热议话题。许多人开始担忧：AI会抢..

GPT4规模大模型落地,Meta ExFM框架:万亿参数基础大模型落地成可能..

论文标题：External Large Foundation Model: How to Efficiently Serve ..

AI机器人开始“反杀”人类 ChatGPT之父预言成真，打工人集体破防..

核心提示：当人形机器人端出咖啡时，世界突然意识到，AI替代危机已不再是..

ChatGPT 背后藏了 3 个颠覆性真相！第 2 个让科技大佬都坐不住了..

ChatGPT 自问世以来，在全球范围内掀起了一阵科技旋风。你以为你了解它了..

跨境电商试练AI，DeepSeek取代了ChatGPT

“接下来半年我们会看到AI应用在国内的蓬勃发展，DeepSeek会带来AI应用的..

跨境电商试练AI，DeepSeek取代了ChatGPT

“接下来半年我们会看到AI应用在国内的蓬勃发展，DeepSeek会带来AI应用的..

两会最热话题——DeepSeek

此刻，今年全国两会已经胜利闭幕！快速盘点这七八天的跑会经历，我这个上..

专访王小川|曾预言过ChatGPT方向，年内推出中国版ChatGPT PRO..

ChatGPT引燃了一轮AI创业潮，无数头顶光环的企业家入局，王小川也是其中..

关于作者

烽火(普通会员)

文章

812

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40394 企业收录2981 印章生成234673 电子证书1035 电子名片60 自媒体46889

@2022 All Rights Reserved

浙ICP备19035174号-7

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索