最近 yahoo 爬虫 增加超级快, 前期yahoo对其爬虫程序效率极其不满,新爬虫上线后,不知是效率提高,还是咋滴,加上中国的,不完全统计已经超过 40个网段 2000 多个IP, 在线人数猛增,各坛主已经对其头痛不已。
看到车东的建议:
Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。
于是设置 Crawl-delay: 100 ,等看效果。
看到车东的建议:
Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。
于是设置 Crawl-delay: 100 ,等看效果。













