memcachedが落ちたのでNagiosで監視

急にキャッシュしなくなったので何でかと思ったら

closeし忘れていたせいで接続数がオーバーした模様。

まだ、サービス公開してないので良かったけれど公開していたらまずかった。

ということで

Nagiosで監視することにしました。

 

11211ポートに接続できるか?

memcachedが稼動しているか?

を下記の設定で監視できます。

 

vi /usr/local/nagios/etc/objects/localhsot.cfg

localhsot.cfgに下記を追加

#memcached
define service{
  use                             local-service
  host_name                  localhost
  service_description     memcached
  check_command         check_memcached
}

 

vi /usr/local/nagios/etc/objects/commands.cfg

commands.cfgに下記を追加

#memcached
define command {
 command_name    check_memcached
 command_line       $USER1$/check_tcp \
   -H $HOSTADDRESS$ \
   -p 11211 \
   -t 5 \
   -E \
   -s 'stats\r\nquit\r\n' \
   -e 'uptime' \
   -M crit
}

http://gihyo.jp/dev/feature/01/memcached_advanced/0003?page=1を参考にして設定したのだけれど-Eオプションが-s 'stats\r\nquit\r\n' \の後に書かれていたのでそのままだと動かなかったので-Eオプションを先に記述。

(コマンドにて改行コードを利用するためには-Eが必要)

 

ダウンした時、再起動も自動でしたいと思って探したら

http://d.hatena.ne.jp/editnuki/20120415/1334474130

まだ、試してないけどあとでやる予定。

ひとまず、これで様子見します。

 

追記

やっぱり落ちた。

コネクション80%越えたらアラート出すようにしてみようかと思います。

 http://gihyo.jp/dev/feature/01/memcached_advanced/0003?page=1

でも、ある特定の動作の時によく落ちてる気がするからその辺も怪しいんだけど

どうも、再現されないから困る・・・・