2008 年 11 月 10 日
集群 对于不同的人有不同的含义。在本文的上下文中,集群最好定义为横向扩展(scale-out)—— 横向扩展集群一般包含大量相同类型的组件,比如 Web 场、表示场和高性能计算 (HPC) 系统。管理员会告诉您,对于横向扩展集群,必须百千次地重复修改,无论修改是多么小;最懒惰的管理员精通横向扩展管理技术,因此无论节点的数量有多少,需要的工作量都是相同的。在本文中,作者将泄露世界上最懒惰的 Linux® 管理员的秘诀。
自从世界上最快的 500 台计算机清单于 1998 年首次发布以来,Linux 集群已经从科学实验项目发展成了当今超级计算领域的主流技术。实际上,在 1998 年的 Top 500 清单中 Linux 集群只占据一席(一个集群,一个 Linux 操作系统),但是在 2008 年的清单中占据了五分之四(400 个集群,458 个 Linux 操作系统)。
管理 Linux 集群需要很独特的技能,单一系统或小型连网系统的 IT 管理员往往不具备这些技能。管理 Linux 集群要求管理员深入理解连网、操作系统和体系结构中的所有子系统。
但是,不仅如此:它还要求采取另一种态度。它要求 “懒惰”。它要求管理员听从 Scrooge McDuck 在 Duckburg 中对侄子们的教导:“工作越巧妙,就越轻松” 。
在本文中,我们讨论最懒惰的 Linux 集群管理员的一些秘诀。尽管它们并不是真正的秘诀,但是由于某种原因,人们要么不了解这些思想,要么低估了它们的作用。为了纠正这个问题,我们在讨论这些秘诀的同时会解释它们的重要性。
集群 对于不同的人有不同的含义。在本文的上下文中,集群最好定义为横向扩展(scale-out)—— 横向扩展集群一般包含大量相同类型的组件,比如 Web 场、表示场和高性能计算 (HPC) 系统。管理员会告诉您,对于横向扩展集群,必须百千次地重复修改,无论修改是多么小;最懒惰的管理员精通横向扩展管理技术,因此无论节点的数量有多少,需要的工作量都是相同的。在本文中,作者将泄露世界上最懒惰的 Linux® 管理员的秘诀。
自从世界上最快的 500 台计算机清单于 1998 年首次发布以来,Linux 集群已经从科学实验项目发展成了当今超级计算领域的主流技术。实际上,在 1998 年的 Top 500 清单中 Linux 集群只占据一席(一个集群,一个 Linux 操作系统),但是在 2008 年的清单中占据了五分之四(400 个集群,458 个 Linux 操作系统)。
管理 Linux 集群需要很独特的技能,单一系统或小型连网系统的 IT 管理员往往不具备这些技能。管理 Linux 集群要求管理员深入理解连网、操作系统和体系结构中的所有子系统。
但是,不仅如此:它还要求采取另一种态度。它要求 “懒惰”。它要求管理员听从 Scrooge McDuck 在 Duckburg 中对侄子们的教导:“工作越巧妙,就越轻松” 。
在本文中,我们讨论最懒惰的 Linux 集群管理员的一些秘诀。尽管它们并不是真正的秘诀,但是由于某种原因,人们要么不了解这些思想,要么低估了它们的作用。为了纠正这个问题,我们在讨论这些秘诀的同时会解释它们的重要性。
最新版本:2007-11 5.3.0
前提: 使用DELL品牌机器,其实也就是要有DELL主板上的一块小小芯片(BMC)就成!
官方公布测试通过可使用型号:
PowerEdge 10th generation system family:
R200, R900
PowerEdge 9th generation system family:
1900, 1950, 1955, 2900, 2950, 2970, 6950
PowerEdge 8th generation system family:
800, 830, 840, 850, 860, 1800, 1850, 1855MC, 2800, 2850, 6800, and 6850
PowerEdge 7th generation system family:
700, 750, 1750
PowerEdge 6th generation system family:
600SC, 650, 1600SC, 1650, 1655MC, 2600, 2650, 4600, 6600, 6650
PowerVault system family:
NX1950, PV100, PV500, PV600
目的: 监控系统硬件状态,配合 IT Assistant 可实现N台机器集中管理主动硬件报警,包括一些硬件驱动的更新提示,
当然报警级别可自定义!
附加功能,硬件配置,硬件的插槽位置,硬盘的raid情况,重启,关机,机器序列号,自定义标签,液晶面板的自定义显示等等等 ...
官方详细说明:
* Added support for the following Dell systems: T105, M600, M605, R805,
R200, and R900.
前提: 使用DELL品牌机器,其实也就是要有DELL主板上的一块小小芯片(BMC)就成!
官方公布测试通过可使用型号:
PowerEdge 10th generation system family:
R200, R900
PowerEdge 9th generation system family:
1900, 1950, 1955, 2900, 2950, 2970, 6950
PowerEdge 8th generation system family:
800, 830, 840, 850, 860, 1800, 1850, 1855MC, 2800, 2850, 6800, and 6850
PowerEdge 7th generation system family:
700, 750, 1750
PowerEdge 6th generation system family:
600SC, 650, 1600SC, 1650, 1655MC, 2600, 2650, 4600, 6600, 6650
PowerVault system family:
NX1950, PV100, PV500, PV600
目的: 监控系统硬件状态,配合 IT Assistant 可实现N台机器集中管理主动硬件报警,包括一些硬件驱动的更新提示,
当然报警级别可自定义!
附加功能,硬件配置,硬件的插槽位置,硬盘的raid情况,重启,关机,机器序列号,自定义标签,液晶面板的自定义显示等等等 ...
官方详细说明:
* Added support for the following Dell systems: T105, M600, M605, R805,
R200, and R900.
在现今BT的温度下, 使用本本的朋友,你还忍心让它工作在高温之下?
或者它已经在火热之中,而你却浑然不知?那你就太对不起它了。
---------------------------------------------------------------------
推荐 本本 温度&风扇 监控 软件一个。它就是 Precision fan control V3.1
它不仅可以监控各类器件的温度, eg: cpu,Gpu,mem.chipset.hard drive ,风扇状态速度。
还可以自定义策略控制风扇的转速,以达到控制温度。

>>>>>> 马上下载 <<<<<<<
或者它已经在火热之中,而你却浑然不知?那你就太对不起它了。
---------------------------------------------------------------------
推荐 本本 温度&风扇 监控 软件一个。它就是 Precision fan control V3.1
它不仅可以监控各类器件的温度, eg: cpu,Gpu,mem.chipset.hard drive ,风扇状态速度。
还可以自定义策略控制风扇的转速,以达到控制温度。
>>>>>> 马上下载 <<<<<<<
转自 WD ADRESS: http://blog.wdicc.com/wordpress/
★ 需求
服务器运行了weblogic和apache,可是有时weblogic进程会莫名crash,业务都在这上面,所以需要能监控程序的运行。我在服务器端写了一个脚本,使用curl检测这两个服务的状态,返回一个数字来确定是哪个服务down了,然后远程通过cacti采集数据画图。
★ 解决方法
snmp提供了发送自定义信息的功能。查看snmpd.conf会看到有一个小节是关于外部脚本的,Executables/scripts。这个小节里面也举了例子,告诉你怎么通过snmp发送信息。我的做法如下(下面假定你已经配置好了snmp,通过cacti已经能采集到信息了)。
在任意位置添加一行:
exec .1.3.6.1.4.1.2021.51 wlsapache /root/wlsapache status
其中wlsapache是命令的名称,后面是命令以及参数。命令的名称可以随便起。脚本执行的结果类似下面:
# ./wlsapache status
3
ALL ok.
我这个脚本的“ALL ok”其实是副产品,对于采集数据没有用。
重启snmpd,然后远程通过snmpwalk接收一下数据看看:
# snmpwalk -v 1 192.168.1.201 -c public .1.3.6.1.4.1.2021.51
UCD-SNMP-MIB::ucdavis.51.1.1 = INTEGER: 1
UCD-SNMP-MIB::ucdavis.51.2.1 = STRING: “wlsapache”
UCD-SNMP-MIB::ucdavis.51.3.1 = STRING: “/root/wlsapache status”
UCD-SNMP-MIB::ucdavis.51.100.1 = INTEGER: 0
UCD-SNMP-MIB::ucdavis.51.101.1 = STRING: “3″
UCD-SNMP-MIB::ucdavis.51.101.2 = STRING: “ALL ok.”
UCD-SNMP-MIB::ucdavis.51.102.1 = INTEGER: 0
★ 需求
服务器运行了weblogic和apache,可是有时weblogic进程会莫名crash,业务都在这上面,所以需要能监控程序的运行。我在服务器端写了一个脚本,使用curl检测这两个服务的状态,返回一个数字来确定是哪个服务down了,然后远程通过cacti采集数据画图。
★ 解决方法
snmp提供了发送自定义信息的功能。查看snmpd.conf会看到有一个小节是关于外部脚本的,Executables/scripts。这个小节里面也举了例子,告诉你怎么通过snmp发送信息。我的做法如下(下面假定你已经配置好了snmp,通过cacti已经能采集到信息了)。
在任意位置添加一行:
exec .1.3.6.1.4.1.2021.51 wlsapache /root/wlsapache status
其中wlsapache是命令的名称,后面是命令以及参数。命令的名称可以随便起。脚本执行的结果类似下面:
# ./wlsapache status
3
ALL ok.
我这个脚本的“ALL ok”其实是副产品,对于采集数据没有用。
重启snmpd,然后远程通过snmpwalk接收一下数据看看:
# snmpwalk -v 1 192.168.1.201 -c public .1.3.6.1.4.1.2021.51
UCD-SNMP-MIB::ucdavis.51.1.1 = INTEGER: 1
UCD-SNMP-MIB::ucdavis.51.2.1 = STRING: “wlsapache”
UCD-SNMP-MIB::ucdavis.51.3.1 = STRING: “/root/wlsapache status”
UCD-SNMP-MIB::ucdavis.51.100.1 = INTEGER: 0
UCD-SNMP-MIB::ucdavis.51.101.1 = STRING: “3″
UCD-SNMP-MIB::ucdavis.51.101.2 = STRING: “ALL ok.”
UCD-SNMP-MIB::ucdavis.51.102.1 = INTEGER: 0
配置squid代理,用的是直接编译,不是用port安装的。今天想对某些用户进行流量控制, 发现delay_pool不起作用,原来是要编译的时候要加enable选项--enable-delay-pools ,郁闷。
下面是配置说明
Squid 是一种源代码开放的高性能代理缓存服务器。它可支持FTP,gopher和Http数据对象的代理。另外,Squid也支持SSL,多样化访问控制和代理请求的完整日志功能。通过轻量级的网际缓存协议,Squid以网状或层次的方式分配内存,这样能节省额外的带宽。提供Http服务加速代理,Web服务器把Http数据推到Squid缓存中,外界的请求访问可以通过缓存提取所需数据,实现Web服务器的动态镜像。
下面是配置说明
Squid 是一种源代码开放的高性能代理缓存服务器。它可支持FTP,gopher和Http数据对象的代理。另外,Squid也支持SSL,多样化访问控制和代理请求的完整日志功能。通过轻量级的网际缓存协议,Squid以网状或层次的方式分配内存,这样能节省额外的带宽。提供Http服务加速代理,Web服务器把Http数据推到Squid缓存中,外界的请求访问可以通过缓存提取所需数据,实现Web服务器的动态镜像。














