最近 yahoo 爬虫 增加超级快, 前期yahoo对其爬虫程序效率极其不满,新爬虫上线后,不知是效率提高,还是咋滴,加上中国的,不完全统计已经超过 40个网段 2000 多个IP, 在线人数猛增,各坛主已经对其头痛不已。
看到车东的建议:
Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。
于是设置 Crawl-delay: 100 ,等看效果。
看到车东的建议:
Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。
于是设置 Crawl-delay: 100 ,等看效果。
该死的 TCP TIME_WAIT 连接 超级多,居然有3W多个。
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
gg下, 了解 TCP 状态变迁。

状态:描述
CLOSED:无连接是活动的或正在进行
LISTEN:服务器在等待进入呼叫
SYN_RECV:一个连接请求已经到达,等待确认
SYN_SENT:应用已经开始,打开一个连接
ESTABLISHED:正常数据传输状态
FIN_WAIT1:应用说它已经完成
FIN_WAIT2:另一边已同意释放
ITMED_WAIT:等待所有分组死掉
CLOSING:两边同时尝试关闭
TIME_WAIT:另一边已初始化一个释放
LAST_ACK:等待所有分组死掉
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
gg下, 了解 TCP 状态变迁。

状态:描述
CLOSED:无连接是活动的或正在进行
LISTEN:服务器在等待进入呼叫
SYN_RECV:一个连接请求已经到达,等待确认
SYN_SENT:应用已经开始,打开一个连接
ESTABLISHED:正常数据传输状态
FIN_WAIT1:应用说它已经完成
FIN_WAIT2:另一边已同意释放
ITMED_WAIT:等待所有分组死掉
CLOSING:两边同时尝试关闭
TIME_WAIT:另一边已初始化一个释放
LAST_ACK:等待所有分组死掉
如果你厌烦 rpm 包 的依赖关系
如果你反感 tar 包的 源码编译
就来试试 傻瓜化的 yum 软件自动化管理吧。
下载安装配置yum
从http://linux.duke.edu/projects/yum/download/2.0/yum-2.0.7-1.noarch.rpm 下载,
并安装yum安装后要注意的是一下三个文件
如果你反感 tar 包的 源码编译
就来试试 傻瓜化的 yum 软件自动化管理吧。
下载安装配置yum
从http://linux.duke.edu/projects/yum/download/2.0/yum-2.0.7-1.noarch.rpm 下载,
并安装yum安装后要注意的是一下三个文件
一般类的提示
eth1: Too much work at interrupt, IntrStatus=0x0001
这条提示的含意为. 某网卡的中断请求过多. 如果只是偶尔出现一次可忽略. 但这条提示如果经常出现或是集中出现,那涉及到的可能性就比较多有可能需要进行处理了. 可能性比较多,如网卡性能;服务器性能;网络攻击..等等.
一般类的提示
IPVS: incoming ICMP: failed checksum from 61.172.0.X!
服务器收到了一个校验和错误的ICMP数据包. 这类的数据包有可能是非法产生的垃圾数据.但从目前来看服务器收到这样的数据非常多.一般都忽略.
一般代理服务器在工作时会每秒钟转发几千个数据包.收到几个错误数据包不会影响正常的工作.
这是问我最多的一类提示了.
一般类的提示
NET: N messages suppressed.
服务器忽略了 N 个数据包.和上一条提示类似.服务器收到的数据包被认为是无用的垃圾数据数据. 这类数据多是由攻击类的程序产生的.
这条提示如果 N 比较小的时候可以忽略.但如果经常或是长时间出现3位数据以上的这类提示.就很有可能是服务器受到了垃圾数据类的带宽攻击了.
eth1: Too much work at interrupt, IntrStatus=0x0001
这条提示的含意为. 某网卡的中断请求过多. 如果只是偶尔出现一次可忽略. 但这条提示如果经常出现或是集中出现,那涉及到的可能性就比较多有可能需要进行处理了. 可能性比较多,如网卡性能;服务器性能;网络攻击..等等.
一般类的提示
IPVS: incoming ICMP: failed checksum from 61.172.0.X!
服务器收到了一个校验和错误的ICMP数据包. 这类的数据包有可能是非法产生的垃圾数据.但从目前来看服务器收到这样的数据非常多.一般都忽略.
一般代理服务器在工作时会每秒钟转发几千个数据包.收到几个错误数据包不会影响正常的工作.
这是问我最多的一类提示了.
一般类的提示
NET: N messages suppressed.
服务器忽略了 N 个数据包.和上一条提示类似.服务器收到的数据包被认为是无用的垃圾数据数据. 这类数据多是由攻击类的程序产生的.
这条提示如果 N 比较小的时候可以忽略.但如果经常或是长时间出现3位数据以上的这类提示.就很有可能是服务器受到了垃圾数据类的带宽攻击了.
不想过了1个多月,才把 pp 整理完.越来越懒了... 很短暂的旅行... 一切都很匆忙。遗憾没去看夜景,没吃爽海鲜!

小平同志 ... 在经济开发地区都有如此大型喷绘 !!!

完全没有想到 厦门会如此的漂亮。10年前和现在简直 ... 相比杭州,更喜欢厦门了,因为那里有大海!!!

小平同志 ... 在经济开发地区都有如此大型喷绘 !!!

完全没有想到 厦门会如此的漂亮。10年前和现在简直 ... 相比杭州,更喜欢厦门了,因为那里有大海!!!

















