驱动之家 08-22
防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 8 月 22 日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练 AI。

百度百科的 robots.txt 文件显示,目前仅有百度搜索、搜狗搜索、中国搜索 ( Chinaso ) 、YYSpider 和宜搜搜索 ( EasouSpider ) 等少数几个搜索引擎被允许抓取其内容。

谷歌搜索、必应搜索、微软 MSN、UC 浏览器的 Yisouspider 以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然 360 搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以 360 搜索和其他搜索引擎也都是被屏蔽的。

不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练 AI。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

搜索引擎 谷歌 必应 ai 百度百科
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论