> 自媒体 > (AI)人工智能 > OpenAI推出爬虫机器人,但用户也可以选择禁止被爬
OpenAI推出爬虫机器人,但用户也可以选择禁止被爬
来源:36氪
2023-08-16 14:56:17
416
管理

作者 | 虞景霖

编辑 | 邓咏仪

AI模型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。

8月8日,OpenAI推出了一款名为GPTBot的网络爬虫机器人,用于收集训练AI模型所需的数据信息。有市场消息称,OpenAI将利用这些数据升级GPT-4和其他大语言模型(如可能即将推出的GPT-5和开源的G3PO)。

根据OpenAI介绍,GPTBot和其他所有网络爬虫一样,从互联网上搜集能够用于训练AI模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。

如何识别GPTBot?

来源:OpenAI

如何禁止GPTBot访问?

将GPTBot添加到网站的robots.txt:

来源:OpenAI

如何限制GPTBot访问,使其只爬取网站的一部分数据?

将下列命令添加至网站的robots.txt:

来源:OpenAI

此外,根据OpenAI发布的有关GPTBot的文档,还列出了GPTBot使用的IP范围(目前只列出了一个,之后将继续添加)。

来源:OpenAI

数据的爬取是AI模型训练不可或缺的一环,而由此所带来的伦理和法律和法律问题也一直是公众关注的焦点。不少国家和地区出台了相应法案,Reddit和X(前Twitter)等网站也采取了相应措施打击AI公司爬取用户数据的行为。

喜剧演员兼作家Sarah Silverman曾在美国法院起诉OpenAI的侵权行为,原因是ChatGPT会总结她的书籍,这一行为构成了侵权。

GPTBot是对围绕版权、公开信息合理使用的一次尝试,使数据收集尽可能在监管范围之内。

尽管网络爬虫网站信息引发了部分网站所有者、版权所有者的反对,但也有支持的声音。

网站信息和ChatGPT等大语言模型可以是相辅相成、互相促进的,但并不绝对。网络爬虫在获取网站信息的时候能够改善网站的流量,网页数据信息能够帮助大语言模型生成更加可靠完善的回答。但网络爬虫所爬取的数据并不一定是信息的源链接,因此无法为网站带去流量。

尽管如此,正如Perplexity和其他大语言模型展示的那样,生成式人工智能机器人的回答还可能包括链接和引用,在未来也有可能成为ChatGPT的特性之一。因此,网站内容发布者也可能希望网站信息被用于AI模型,以换取可能的流量。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT火热“出圈”,我们如何应对新挑战
一夜之间,ChatGPT刷屏社交媒体,与之相关的讨论层出不穷。作为全新的人..
OpenAI 总裁:GPT-4 有不完美,高阶版本正在测试!
【CSDN 编者按】OpenAI 总裁格雷格・布罗克曼:GPT-4 并不完美但绝对与众..
​ChatGPT赛道跑出来的两个方向,不谈概念,只谈落地
今天Chatgpt与AIGC方向大涨,海天瑞声,万兴科技涨停、昆仑万维、科大讯..
迎战 ChatGPT,谷歌聊天机器人 Bard 正式开放测试
作者 | 刘燕 3 月 21 日晚间,谷歌开放了其聊天机器人 Bard 的测试。Bard..
不必羡慕chatgpt,鸿蒙4.0或将具备AI大模型能力!
AI大模型是指能够处理海量数据并生成高质量内容的人工智能模型,它们具有..
OpenAI在中国申请GPT-5商标丨360智脑大模型整体能力一月跃升15%..
AI奇点网丨AI资讯丨AI工具推荐丨AI工具教程提供1000 款AI效率工具丨AIEVA..
GPT风口下的数据标注员:人工智能背后的“老师”和AI局外人..
数据标注员正在工作。受访者供图基层数据标注员:层层外包下有的到手薪资..
ChatGPT国内版要来了,传百度将推出类似AI服务
近一段时间,人工智能聊天机器人ChatGPT在全球范围内的爆火,于AI绘画之..
AI 造图新境界!OpenAI 提出的可逆生成模型,比 GAN 更具潜力?..
昨天,著名人工智能研究组织 OpenAI 发布了其最新工作:《Glow: 更好的可..
关于作者
聚焦每日新资..(普通会员)
文章
510
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40335 企业收录2981 印章生成193666 电子证书831 电子名片53 自媒体26178

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索