> 自媒体 > (AI)人工智能 > 担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
来源:量子位
2023-05-04 22:06:38
586
管理

萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

还在担心大语言模型“啥都吃”,结果被用假信息训练了?

放在以前,这确实是训练NLP模型时值得担心的一个难题。

现在,谷歌从根本上解决了这个问题。

他们做了个名为TEKGEN的AI模型,直接将知识图谱用“人话”再描述一遍,生成语料库,再喂给NLP模型训练。

这是因为,知识图谱的信息来源往往准确靠谱,而且还会经过人工筛选、审核,质量有保障。

目前,这项研究已经被NAACL 2021接收。

整体来看,用TEKGEN生成语句的流程是这样的:

生成后的语句,就能用来放心地训练大语言模型了。

这份生成的语料库,由4500万个三元组生成,组合起来的句子有1600万句。

当然,这里面也用LAMA(LAnguage Model Analysis) probe,来对用这个语料库训练的模型进行了评估。

在Google-RE和TREx两个数据集上,经过预训练的模型,在各项任务上均取得了非常好的效果。

说不定,将来真能让AI去试试高考语文的“图文转换”题:

论文一作小姐姐Oshin Agarwal,是宾夕法尼亚大学的计算机系在读博士生,研究方向是自然语言处理中的信息抽取。

这篇论文,是她在谷歌实习期间完成的。

来自谷歌的Heming Ge、Siamak Shakeri和Rami Al-Rfou也参与了这项工作。

目前,作者们已经将这个用知识图谱生成的语料库放了出来。

想要训练NLP模型的小伙伴,可以用起来了~

论文地址:https://arxiv.org/abs/2010.12688

用知识图谱生成的语料库:https://github.com/google-research-datasets/KELM-corpus

参考链接:https://ai.googleblog.com/2021/05/kelm-integrating-knowledge-graphs-with.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
阳光下的微笑..(普通会员)
文章
517
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40350 企业收录2981 印章生成210630 电子证书903 电子名片56 自媒体31025

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索