yahoo 爬虫 不指定

Category : UNIX | Post on 2007/08/13 12:33 by leftleg | Comments:0
最近 yahoo 爬虫 增加超级快, 前期yahoo对其爬虫程序效率极其不满,新爬虫上线后,不知是效率提高,还是咋滴,加上中国的,不完全统计已经超过 40个网段 2000 多个IP, 在线人数猛增,各坛主已经对其头痛不已。

看到车东的建议:

Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。

于是设置 Crawl-delay: 100 ,等看效果。
分页: 1/1 第一页 1 最后页 [ 显示模式: 摘要 | 列表 ]