大量采集的网站，如何限制网络机器人，减少流量浪费？

对于大量采集的网站，比如淘宝客，如何限制网络机器人爬虫抓取，减少网站空间流量浪费呢？

网站的页面成千上万，因为网络未知机器人爬虫的大量抓取，用掉了大量非浏览器流量，导致网站停掉，不得不进行流量充值。

用以下办法可以设置只允许google百度机器人访问，大大减少了网站空间月流量消耗。

请设置一下robots.txt文件，禁止那个大量抓取的未知robot，或者只允许google百度抓取。方法如下：

把这段代码放到robots.txt里面去

User-agent: Baiduspider
Disallow:

User-agent: googlespider
Disallow:

User-agent: *
Disallow: /

详情参考：