Japje
06/10/08, 16:52
Door een rare uitval van een raidcontroller ben ik gaan nadenken over hoe je data veilig kunt backuppen. Wil jullie het volgende voorleggen en ben benieuwd hoe je het zou oplossen:
Stel je hebt een simpele server, om je data veilig te houden wil je raid draaien, en je kiest voor raid 1.
Om je data te backuppen maak je gebruik van bv rsync (met een pakkket zoals rsnapshot) om je data incrementieel veilig te stellen op een apparte server. Dit doe je elke nacht, en 7 dagen in de week. Tevens gebeurt dit ongecomprimeerd. Er word dus geen tarbal of gzipje van gemaakt.
Nu draait alles goed en de klantjes zijn lustig aan het gebruik maken van hun accountjes :D
Opeens krijg je een mailtje/smsje van je monitorings systeem.. je server is down! :( Je rushed naar je server toe en komt tot de conclusie dat je partitie tabel aan gort is en ondanks verwoede pogingen je deze niet kunt herstellen dmv een fsck (of iets anders wat aan repair van FS doet).
Tja, daar zit je dan.. :crying: maar je blijft niet zielig zitten doen.. je pakt een spare server.. slingert deze aan op het ip van de oude server en log je vast in op je backupserver want je gaat gewoon de data terugzetten en dan is alles weer goed :thumbup:
je zet je scp (oid) aan en hij begint lustig te kopieren! zo hoort het ook! Maar terwijl je naar je terminal zit te kijken begint het je op te vallen dat accounts wel heeeel erg snel gekopieerd zijn.. sterker nog.. dat ene account.. van die grote klant met zn grote filmpjes is binnen luttele seconden overgezet.. hoe kan dat nou?
Je zet je scp uit en cd'ed naar de backup dir van vannacht en begint rond te neuzen... je pakt dat ene accountje van die grote filmpjes.. en begint woest te ls -alh'en ... alle files zijn maar een paar KB groot :huh: WTF denk je.. en langzaam begint de realiteit binnen te sijpelen.. je backup is corrupt :crying:
Sterker nog! Alle 7 backups zijn zo gaar als een raap.. is niets meer mee te beginnen. :cursing:
Er zit niets anders op dan het aan je klanten te melden.( De afhandeling hiervan laat ik voor wat het is)
Door onderzoek van de server kom je er achter dat de raidkaart geen raidsets meer herkent, en als hij al iets doet dan is het erg snel stuk.. de kaart is dus brak/stuk/kapot/stom
Bij controle van de 2 disks in de server merk je dat 1 disk idd stuk is en nu je stapel fanmail netjes bij elkaar kan houden door er op te liggen.
De 2e disks is echter wat grappigs mee, deze heeft nog een beetje data er op staan, maar deze data dateerd ruim 3 maanden geleden! Deze disk is dus uit je raidset gebonjoured door de raidkaart zonder dat hij echt stukstuk was. En belangrijker nog, de raidkaart heeft dit niet gemeld! anders had je er een andere disk in gedaan! ;-) Dan was het geheel misschien niet eens gebeurt!
Dus als moraal van dit verhaal, hardware blijft hardware en kan op de meest vreemde manieren stuk gaan.
dus..
Hoe zorg je er voor dat je backups correct zijn?
Ben erg benieuwd wat voor oplossing je zo verzinnen.. welke je nu gebruikt of hebt gebruikt!
Stel je hebt een simpele server, om je data veilig te houden wil je raid draaien, en je kiest voor raid 1.
Om je data te backuppen maak je gebruik van bv rsync (met een pakkket zoals rsnapshot) om je data incrementieel veilig te stellen op een apparte server. Dit doe je elke nacht, en 7 dagen in de week. Tevens gebeurt dit ongecomprimeerd. Er word dus geen tarbal of gzipje van gemaakt.
Nu draait alles goed en de klantjes zijn lustig aan het gebruik maken van hun accountjes :D
Opeens krijg je een mailtje/smsje van je monitorings systeem.. je server is down! :( Je rushed naar je server toe en komt tot de conclusie dat je partitie tabel aan gort is en ondanks verwoede pogingen je deze niet kunt herstellen dmv een fsck (of iets anders wat aan repair van FS doet).
Tja, daar zit je dan.. :crying: maar je blijft niet zielig zitten doen.. je pakt een spare server.. slingert deze aan op het ip van de oude server en log je vast in op je backupserver want je gaat gewoon de data terugzetten en dan is alles weer goed :thumbup:
je zet je scp (oid) aan en hij begint lustig te kopieren! zo hoort het ook! Maar terwijl je naar je terminal zit te kijken begint het je op te vallen dat accounts wel heeeel erg snel gekopieerd zijn.. sterker nog.. dat ene account.. van die grote klant met zn grote filmpjes is binnen luttele seconden overgezet.. hoe kan dat nou?
Je zet je scp uit en cd'ed naar de backup dir van vannacht en begint rond te neuzen... je pakt dat ene accountje van die grote filmpjes.. en begint woest te ls -alh'en ... alle files zijn maar een paar KB groot :huh: WTF denk je.. en langzaam begint de realiteit binnen te sijpelen.. je backup is corrupt :crying:
Sterker nog! Alle 7 backups zijn zo gaar als een raap.. is niets meer mee te beginnen. :cursing:
Er zit niets anders op dan het aan je klanten te melden.( De afhandeling hiervan laat ik voor wat het is)
Door onderzoek van de server kom je er achter dat de raidkaart geen raidsets meer herkent, en als hij al iets doet dan is het erg snel stuk.. de kaart is dus brak/stuk/kapot/stom
Bij controle van de 2 disks in de server merk je dat 1 disk idd stuk is en nu je stapel fanmail netjes bij elkaar kan houden door er op te liggen.
De 2e disks is echter wat grappigs mee, deze heeft nog een beetje data er op staan, maar deze data dateerd ruim 3 maanden geleden! Deze disk is dus uit je raidset gebonjoured door de raidkaart zonder dat hij echt stukstuk was. En belangrijker nog, de raidkaart heeft dit niet gemeld! anders had je er een andere disk in gedaan! ;-) Dan was het geheel misschien niet eens gebeurt!
Dus als moraal van dit verhaal, hardware blijft hardware en kan op de meest vreemde manieren stuk gaan.
dus..
Hoe zorg je er voor dat je backups correct zijn?
Ben erg benieuwd wat voor oplossing je zo verzinnen.. welke je nu gebruikt of hebt gebruikt!