- 晶源互联-西部数码代理首页
- 客服中心
- 新闻中心
- 大量采集的网站,如何限制网络机器人,减少流量浪费?
大量采集的网站,如何限制网络机器人,减少流量浪费?
对于大量采集的网站,比如淘宝客,如何限制网络机器人爬虫抓取,减少网站空间流量浪费呢?
网站的页面成千上万,因为网络未知机器人爬虫的大量抓取,用掉了大量非浏览器流量,导致网站停掉,不得不进行流量充值。
用以下办法可以设置只允许google百度机器人访问,大大减少了网站空间月流量消耗。
请设置一下robots.txt文件,禁止那个大量抓取的未知robot,或者只允许google百度抓取。方法如下:
把这段代码放到robots.txt里面去
User-agent: Baiduspider
Disallow:
User-agent: googlespider
Disallow:
User-agent: *
Disallow: /
Disallow:
User-agent: googlespider
Disallow:
User-agent: *
Disallow: /
详情参考: