大量采集的网站,如何限制网络机器人,减少流量浪费?

对于大量采集的网站,比如淘宝客,如何限制网络机器人爬虫抓取,减少网站空间流量浪费呢?

网站的页面成千上万,因为网络未知机器人爬虫的大量抓取,用掉了大量非浏览器流量,导致网站停掉,不得不进行流量充值。

用以下办法可以设置只允许google百度机器人访问,大大减少了网站空间月流量消耗。

请设置一下robots.txt文件,禁止那个大量抓取的未知robot,或者只允许google百度抓取。方法如下:

把这段代码放到robots.txt里面去

User-agent: Baiduspider
Disallow: 

User-agent: googlespider
Disallow: 

User-agent: *
Disallow: /
 
详情参考: