> 自媒体 > (AI)人工智能 > 识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了
识别ChatGPT造假,效果超越OpenAI:北大、华为的AI生成检测器来了
来源:机器之心Pro
2023-06-03 14:25:38
464
管理

机器之心专栏

机器之心编辑部

AI 造假的成功率很高,前几天「10 分钟骗 430万」还上了热搜。在最热门的大语言模型上,研究人员最近探索了一种识别方法。

随着生成式大模型的不断进步,它们生成的语料正逐步逼近人类。虽然大模型正在解放无数文书的双手,它以假乱真的强劲能力也为一些不法分子所利用,造成了一系列社会问题:

来自北大、华为的研究者们提出了一种识别各式 AI 生成语料的可靠文本检测器。根据长短文本的不同特性,提出了一种基于 PU 学习的多尺度 AI 生成文本检测器训练方法。通过对检测器训练过程的改进,在同等条件下能取得在长、短 chatGPT 语料上检测能力的可观提升,解决了目前检测器对于短文本识别精度低的痛点。

此外需要注意的是,MPU loss 适配的是长度较为多样的训练语料。倘若既有的训练数据单质化明显,大部分语料为大段冗长的文本,则无法全面发挥 MPU 方法的功效。为了使得训练语料的长度更多样化,本研究还引入了一个在句子层面进行多尺度化的模块。该模块随机遮盖训练语料中的部分句子,并对余下句子在保留原有顺序的前提下进行重组。经过训练语料的多尺度化操作,训练文本得到了长度上的极大丰富,从而充分利用了 PU 学习进行 AI 文本检测器训练。

实验结果

如上表所示,作者先在较短的 AI 生成语料数据集 Tweep-Fake 上检验 MPU loss 的效果。该数据集中的语料均为推特上较为短小的语段。作者又在传统的语言模型微调基础上将传统二分类 loss 替换为含有 MPU loss 的优化目标。改进之后的语言模型检测器效果较为突出,超过了其它基线算法。

作者又对 chatGPT 生成文本进行了检测,经过传统微调得到的语言模型检测器在短句上表现较差;经过 MPU 方式在同等条件下训练得到的检测器在短句上表现良好,且同时能够在完整语料上取得可观的效果提升,F1-score 提升了 1%,超越了 OpenAI 和 DetectGPT 等 SOTA 算法。

如上表所示,作者在消融实验中观察了每个部分带来的效果增益。MPU loss 加强了长、短语料的分类效果。

作者还对比了传统 PU 和 Multiscale PU(MPU)。由上表可见 MPU 效果更胜一筹,能更好地适配 AI 多尺度文本检测的任务。

总结

作者通过提出基于多尺度 PU 学习的方案,解决了文本检测器对于短句识别的难题,随着未来 AIGC 生成模型的泛滥,对于这类内容的检测将会越来越重要。这项研究在 AI 文本检测的问题上迈出了坚实的一步,希望未来会有更多类似的研究,把 AIGC 内容进行更好的管控,防止 AI 生成内容的滥用。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
【企微号】扶贫攻坚战总结报告大纲
本文将介绍企业应用机器人、售前售后机器人、丰富的角色以及自定义知识库..
阿里推出GPT全家桶,一把手亲自抓的“神仙打架”,能超越OpenAI吗?..
“终于有了一个AI‘嘴替’,它叫‘鸟鸟分鸟’。”4月4日,知名脱口秀演员..
全球最大的AI巨量模型发布,浪潮研发中国自己的GPT-3
近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段..
“聊聊天”就能月入上万?记者体验“直播销售员”,揭秘直播间的故事..
【揭秘新职业】直播销售员:随着短视频、直播带货等网络营销行业的兴起,..
JetBrains发布2023调研报告:77% 开发者使用ChatGPT
IT之家 11 月 21 日消息,JetBrains 日前公布了《2023 开发人员生态系统..
设计师用上ChatGPT,“随便提意见,不怕修改”
长江日报大武汉客户端4月2日讯(记者史强)“一小时的沟通效率,抵得上以..
微信聊天记录如何成为有效证据?
来源:安徽高院 朋友在微信上问自己借钱有聊天记录,却没有借条凭证打官..
细思极恐!马斯克率千人反对,人类已无法解释,AI将如何毁灭人类?ChatGPT..
今天,马斯克的一封公开信,把A股AIGC赛道带崩了。OpenAI创始人承认,AI..
数据分析师工作保不住了?阿里达摩院发现,GPT-4 成本只需几千元..
作者 | 核子可乐、凌敏GPT-4 真的可以取代数据分析师吗?今年 3 月 14 日..
关于作者
乖乖(普通会员)
文章
586
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索