緊急連絡システムの運用で、越前市やら鯖江市のメールサーバが落ちてると 意味がなくなるので、nagiosにてサーバの稼働状況をチェックしている。 んで、先週末より鯖江市HPが落ちたり復旧したりの警告メールが頻繁に届く。
頻繁に届く理由の1つは、緊急連絡システムのバックアップ予備機でもnagiosが 動き出してしまったため。(パッケージupdateで消しておいたはずなんだが…) でも、何度も落ちて復旧というのも変。動作確認のタイムアウト時間が短いのかな…
鯖江市、最近ネット関連がんばってるし、Webサーバへの負荷高くなって反応にぶいかな… 動作確認のタイムアウト時間を長めに設定するか…
(( /etc/nagios/services.cfg )) # Service definition define service{ use generic-service host_name sabae-web service_description HTTP ...(略)... check_command check_http2!www.city.sabae.fukui.jp!2!5 }
うーむ、警告レベルを2秒、危険レベルを5秒に設定した割に、 2.6秒とか3.X秒とかで警告メールが相変わらず届く。 check_http で遅延3秒って、ページ見てもらえなくなる3秒ルールに引っかかるぞ… どちらにしろ動いているようだし、警告5秒、危険10秒に直しておく。