Ik ben nu al een paar dagen met Ceph aan het spelen en ik ben een beetje stomverbaasd van de robuustheid van het ding.. Je moet echt al wel heel veel doen om het naar de kloten te helpen zoals we dat in België zeggen..
Nu heb ik echter toch wel een aantal vragen waar ik mee zit:
-> Wanneer we gewone servers in RAID 1 zetten op SSDs dan mixen we steeds disken van 2 vendors door elkaar. Op onze Ceph omgeving hebben we zoals aanbevolen de Journal disk op een SSD gezet en de OSDs zo gemaakt dat deze de SSD als journal disk gebruiken. Echter valt die journal disk weg dan vallen ook meteen al je bijhorende OSDs weg en is je 'node' dus plat zeg maar. Ceph rebuilt dat wel mooi maar ik zat hier dan te denken. In een 3 node cluster gaan dan de Journal SSDs niet quasi allemaal op hetzelfde moment gaan falen waardoor je het risico loopt dat alles down gaat ?
Kun je op een of andere manier 2 journal disks steken in een node en 2 disken gebruiken om je OSDs naar te laten journalen zodat je er steeds toch eentje mag verliezen op je node ?
->Oké, mijn journal disk is kapot , al mijn OSDs zijn down. Ik installeer vervolgens een nieuwe journal disk maar dan lijkt het niet zo eenvoudig te zijn om al die OSDs terug online te krijgen. Ceph heeft ondertussen op de achtergrond het cluster al mooi herbouwt dus het eenvoudigste lijkt mij om alle OSDs te wipen en vervolgens gewoon nieuwe OSDs aan te maken op die node en mee terug in de cluster te trekken.. Ceph gaat terug herbalanceren en klaar..
Enige nadeel hier is dat dit herbalanceren wel een impact heeft op performance natuurlijk..
Maar ik vermoed dat er een andere betere procedure is die minder impact heeft op de omgeving dan mijn botte oplossing..
-> Ik zou eens heel graag de performance van die setup testen, wat is de meest 'aanbevolen' manier om dit te doen ?