OpenAI现在允许网站阻止他们的网络爬虫抓取数据,以避免数据被用于训练AI模型

干货分享7个月前发布 Youzhizhan
1,360 0


网络爬虫是一种可以在互联网上搜索和获取信息的自动化程序。OpenAI的网络爬虫称为GPTBot,它以一定的频率访问各种网站,并保存网页内容,用于训练GPT模型

OpenAI现在允许网站阻止他们的网络爬虫抓取数据,以避免数据被用于训练AI模型

8月8日,据报道,OpenAI的GPT模型的训练需要大量的网络数据,这可能涉及数据隐私和copyright.In 为了解决这些问题,OpenAI最近推出了一项新功能,允许网站阻止其网络爬虫从其网站中抓取数据以训练GPT模型。

据IT之家称,网络爬虫是一种自动化程序,可以在互联网上搜索和获取信息。OpenAI的网络爬虫称为GPTBot,它以一定的频率访问各种网站,并保存网页内容,用于训练GPT模型。

OpenAI在其博客文章中表示,网站运营商可以在他们的网站上使用机器人。Txt文件中禁止访问GPTBot,或者通过阻止其IP地址,阻止GPTBot从其网站抓取数据。。OpenAI还表示,”使用GPTBot用户代理抓取的网页可能用于改进未来的模型,并将过滤掉需要付费访问的来源,已知会收集个人身份信息(PII),或者有违反我们政策的文”对于不符合排除标准的来源,”允许GPTBot访问您的网站可以帮助AI模型变得更准确,并提高其一般功能和安全性。””

但是,这不会追溯性地从ChatGPT的培训数据中删除以前从网站抓取的内容。

互联网为大型语言模型(如OpenAI的GPT模型和Google的Bard)提供了大部分的训练数据,获取用于AI训练的数据变得越来越有争议。包括Reddit和Twitter在内的一些网站已采取措施打击AI公司免费使用其用户帖子,而一些作者和其他创作者也因涉嫌未经授权使用其作品而提起诉讼。

[ad]
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...