> 自媒体 > (AI)人工智能 > Open AI说:给我一句话,我能编出一本书
Open AI说:给我一句话,我能编出一本书
来源:品玩
2023-08-06 15:58:39
369
管理

阅读理解只有小学生水平,GPT-2写假新闻却是一把好手。

你也许听说过会作诗的机器学习模型,也对人工智能写新闻这事儿稍有耳闻——今天我们要介绍的这项 AI 科研进展,比上面这些更超前了一步。

近日,享有盛名的研究机构OpenAI,宣布了一项新的生成式语言模型 GPT-2 (Generative Pre-Trained Transformer-2)[1]。

这是一个基于 Transformer,约有15亿个参数的文本生成模型,采用来自互联网上总共800万个网页、超过40GB的文字资料,无监督学习训练而成。(GPT 初代结合了无监督学习和监督式学习。)

在以往,同类模型需要特定专业的语料去训练,才能得到可接受的效果。简单来说,写诗的 AI 得用大量的诗歌去训练;写新闻的 AI,用的数据集也是写好的新闻素材。

而 GPT-2 的厉害之处在于:在未经专门类别语料训练的前提下,这个模型已经可以用于多种跟语言相关的任务,结果令人惊讶。

Zero-shot“阅读理解”能力,却只有小学水平

前面提到,GPT-2 可以用于其他比较常见的阅读理解类任务。比如回答问题、填空、缩写、翻译等等。

在这些任务上,GPT-2 的强大之处在于,它采用无监督训练,没有使用专门面向这些任务的数据进行训练。

这种训练条件叫做 Zero-shot。在这样的条件下,GPT-2的阅读理解能力已达到小学生水平。

1)回答问题:研究人员喂了一段北京奥运会火炬传递的语料给 GPT-2,然后问它“总共多远”、“起始地点”、“他们接下来去了哪”之类的,带有次序、非直接提问和上下文指代的问题。GPT-2 的准确率达到了55%。

如果没有语料,直接上自然语言问题,比如”美国土地面积最大的州是哪个“,GPT-2 的准确率就降至5%以下了,而且参数提高没看到多大效果——这并不令人感到意外。

2)填空:任务是填出这段话的最后一个单词。案例语料是一段讲述吃早饭的文字,传达的意思是吃的应有尽有,喝的却只有”冷冽的水“,暗示没有咖啡,最后一个单词应该为”咖啡“。GPT-2 填了“食物”,违反了语料里给定的场景。

但是如果你再看一遍语料(下图),可能会察觉到,如果只看最后两句,那么确实是有“没有食物只能喝水”的意思。研究人员指出,如果提高计算量,增加参数,准确度会进一步提高。

3)缩写:表现一般,参数增加后准确度反而降低了。

4)翻译:在扩写任务上展示惊人能力之前,翻译被认为是 Transformer 类模型最适合的任务,因为其关注模型本身很适合。GPT-2 在翻译任务上表现的很不错,未来参数增加到一定程度,大有赶超现有统计机器翻译 (SMT) 技术的希望。

总的来看,GPT-2 初步展示了 Transformer 类模型,以及其背后的关注机制,在自然语言处理类任务上所具备的潜力。它能够取得state-of-the-art 的结果,并且训练所需的时间更短。

但是在 AI 领域,类似的进步总是双刃剑。刚才提到,在扩写等特定的任务上,如果 GPT-2 以及 Transformer 模型被心怀不轨的人滥用,恐怕将意味着更多假新闻出现。

OpenAI 在网站上也主动提到了这件事,而且他们本次并没有放出训练的数据集、全部代码等关键资料。在 GitHub 上 OpenAI 选择了”阉割式开源“,放出来的的是一个更小的,只有1.17亿参数的 GPT-2 版本,而论文中的最大参数量超过了15亿个。

”我们明白,某些研究者有技术实力,可以复现并且开源我们的训练结果。我们认为现在采取的发布策略可以限制这类人或机构的数量。这样,我们就能有更多时间让 AI 社区去探讨这类技术的应用,“OpenAI 在官网上写道。

OpenAI 还建议,政府应该针对滥用 AI 技术者建立惩罚机制。

[1] https://blog.openai.com/better-language-models/

[2] https://blog.openai.com/better-language-models/#sample1

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
轻随风之舞..(普通会员)
文章
383
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成187248 电子证书796 电子名片49 自媒体21062

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索