Nagios voor monitoring hier. Daarnaast cacti voor graphs en monit voor dingen die durven crashen en dan gewoon herstart moeten worden, of voor processen die mem lekken.
Nagios voor monitoring hier. Daarnaast cacti voor graphs en monit voor dingen die durven crashen en dan gewoon herstart moeten worden, of voor processen die mem lekken.
Ik neem aan dat jullie (sowieso Nagios-gebruikers), ook alle services checken? Daarnaast zitten wij hier enigsinds in een twijfel: is het verstandig om bij een service die niet (meer) werkt, deze automatisch te laten herstarten? Dit heeft immers zo zijn voordelen, maar het kan natuurlijk ook negatief uitpakken.
Ik heb hier onderzoek naar gedaan voor het monitoring systeem van een grote ICT dienstverlener.. bij hun leverde het absoluut voordelen (besparing van tijd) op mits goed geimplementeerd.
Sowieso kun je services als snmp, cron, ntp (tijdsynchronisatie), noem maar op makkelijk vanzelf laten herstarten via event-handlers.. het automatisch legen van een bepaalde harde schijf partitie heeft wat meer aandacht nodig (voorbeeld: logging partitie, event handler laat scriptje draaien dat alle logfiles ouder dan 3 dagen zipt en wegschrijft in een bepaalde map).
Als je minder dan 50 servers in beheer hebt dan kun je er wel voor kiezen om het gewoon zelf te starten, bedrijf waar ik onderzoek voor heb gedaan telde 3500 servers.
Edit:
Het automatisch laten starten houd in:
Controleer service, indien 2x kritiek: start hem opnieuw
Is hij de keer erna (1 minuut later) nog kritiek, stuur dan alsnog een melding (dan is er ook echt wat aan de hand).
Nadelen hiervan zijn de verminderde controle en het risico dat de service elke 5 minuten uitvalt en maar herstart blijft worden zonder dat er een melding verschijnt.
Wat je als laatste noemde is precies waar ik dus bang voor ben. Ik kan niet het risico lopen dat blijkt dat er een service om de 5 minuten uit ligt, en door het herstarten je nooit een melding krijgt van het probleem. Maar als ik je goed begrijp kan het, mits goed geconfigureerd, wel veel voordelen opleveren.
Ik ga het anders maar eens testen op een paar servers.