3.3.06

Nagios

Acabo de terminar y probar mi primer plugin para Nagios (http://www.nagios.org) para controlar un problema que se repitio ya dos veces en el servidor de e-mail principal. Todos los servicios de e-mail estaban iniciados (Qmail) y recibiendo conexiones (Courier IMAP y POP) pero los logs decian que no podian autenticar contra la DB username/pass/domain por que estaba caida. Lo raro era que la DB funcionaba lo mas bien.

Investigando en los foros de Gentoo vi que un par mas de personas se cruzaron con este problema, y la solcion era reiniciar el daemon de courier-authlib. Nagios controlaba la DB y todos los servicios de e-mail pero este problema escapa a dicho control por que todo funcona perfectamente. La solucion, crear un plugin que checkee una cuenta de prueba y avise a nagios si todo esta bien o no. Nagios despues se encarga de hacer un raise de la alerta y notificarme via e-mail y celular.

Ahora tengo una manera rapida de detectar la falla, me faltaria saber como solucionarlo completamente ya que solo lo puedo solucionar cuando aparece la falla y no definitivamente. Una solucion bastante harcodeada seria una entrada en el cron que reinicie las courier-authlib una vez por dia y evitar el cuelgue entre la conexion persistente entre la authlib y la DB.

(Linda entrada para 'Memorias de un Gentooer')