Bekijk Volledige Versie : Ceph setups
dennis0162
21/03/17, 11:44
Ik ben benieuwd wat jullie voor hardware gebruiken voor jullie CEPH Setup en waarom je deze gekozen hebt.
10 Gbe of 40 Gbe netwerk?
HDD 7200 tpm met SSD cache of SSD only?
Hoeveel IOPS haal je?
Storage nodes los getrokken van je Virtualisatie nodes?
Ga vandaag beginnen met het opzetten van een Ceph test setup.
Zal de resultaten v/d week posten.
Leuk ga ik volgen!
Ik zelf zou alleen SSD only gebruiken ze kosten tegenwoordig steeds minder en scheelt hoop gezeik. Zeker als HDD gebruikt en paar VM's gaan backuppen krijg je al een hoge IO wait.
Welke server wil je gaan gebruiken als storage node? En hoveel HDD of SSD's kunnen in deze server?
Dit is al het 4de topic over dit topic :-)
admins: misschien eens eentje sticky maken en alles merken ..
CharlieRoot
22/03/17, 16:13
Ik ben benieuwd wat jullie voor hardware gebruiken voor jullie CEPH Setup en waarom je deze gekozen hebt.
10 Gbe of 40 Gbe netwerk?
HDD 7200 tpm met SSD cache of SSD only?
Hoeveel IOPS haal je?
Storage nodes los getrokken van je Virtualisatie nodes?
Ga vandaag beginnen met het opzetten van een Ceph test setup.
Zal de resultaten v/d week posten.
10Gbe is voldoende, 40Gbe zul je per node niet of nauwelijks gaan halen. Het idee van Ceph is juist spreiden. Daarnaast heeft ceph public en private network (dus 2x 10Gbe). Voor wat betreft de IOPS, deze vind ik minder interessant maar zal je wat waardes geven. Ik zie op ons cluster nu pieken van 12k iops. Het is niet gezegd dat dit ook het maximum is.
We gebruiken nu SATA 7200RPM disken voor opslag en SSD voor cache. We hebben diverse tests gedaan (ook met SAS10k en SAS15k) maar de performance van SATA met SSD was dermate goed dat we geen enkele reden zagen om voor SSD te kiezen. Je houd met SATA toch veel meer bruikbare ruimte over.
Wij draaien Ceph helemaal los en dat zou ik je ook adviseren. Het kost veel CPU load en dat wil je niet combineren.
Ceph is natuurlijk heel makkelijk te installeren met Proxmox via een paar klikken, maar iedereen raad eigenlijk het af om het te combineren ivm. de performance.
Hoe denken jullie erover om bijvoorbeeld 3 nodes extra in je Proxmox cluster te hangen en deze puur te gebruiken voor Ceph en er geen VM's op te zetten? Dan hoef je het niet volledig via de CLI in te richten en heb je de load van de nodes toch alleen maar in gebruik voor Ceph. Wat zijn jullie gedachten hierover?
3 nodes is nooit voor productie aan te raden (het zal vast wel werken, maar je wil ook enige reserve hebben...). Ik zou zeker voor dedicated servers gaan, en het niet naast je compute draaien. In het laatste geval moet je namelijk d.m.v. bijvoorbeeld cgroups zorgen dat je Ceph cluster nooit te weinig resources krijgt, anders stort je performance in (ook als het maar 1 trage node is).
CharlieRoot
24/10/17, 12:57
3 nodes is nooit voor productie aan te raden (het zal vast wel werken, maar je wil ook enige reserve hebben...). Ik zou zeker voor dedicated servers gaan, en het niet naast je compute draaien. In het laatste geval moet je namelijk d.m.v. bijvoorbeeld cgroups zorgen dat je Ceph cluster nooit te weinig resources krijgt, anders stort je performance in (ook als het maar 1 trage node is).
Met drie nodes kun je prima in productie draaien mits je zorgt dat je verdeling klopt, met 3 mon's heb je redundancy genoeg (1 node kan wegvallen) zonder dat het echt merkbaar is in de performance. Wel handig om 2 netwerken op basis van 10Gbps te hebben voor het restoren van de data.
Met drie nodes kun je prima in productie draaien mits je zorgt dat je verdeling klopt, met 3 mon's heb je redundancy genoeg (1 node kan wegvallen) zonder dat het echt merkbaar is in de performance. Wel handig om 2 netwerken op basis van 10Gbps te hebben voor het restoren van de data.
En wat nou als je derde node uitfikt? Ga je dan weken lang op 2 nodes draaien totdat je leverancier een nieuwe server heeft gebracht? Ook is het zo dat Ceph normaal gezien die data opnieuw gaat verdelen om weer N+2 te halen. Dat kan je natuurlijk uitstellen d.m.v. settings, maar als je dat niet lang genoeg rekt heb je dus zeer veel extra capaciteit op de overgebleven nodes nodig om de data van de derde server te verdelen.
Daarnaast zag ik wel degelijk merkbare verschillen in de performance. Ik zou zeggen laat maar eens een fio een rdb benchmark doen en trek de stekker uit een node. Naast een zeer kleine hick-up zie je wel de max iops meteen dalen. Of dat merkbaar is hangt natuurlijk van je load af.
Wat betreft het hebben van 2 netwerken ben ik het volledig met je eens. Let wel op dat je (mits je Ceph over meerdere racks verdeeld) dus niet ook maar 10 Gbps tussen die switches hebt (maar bijvoorbeeld 40 Gbps). Je kunt natuurlijk ook data per kast "laten" herverdelen, door middel van specifieke flags bij je placement groups.
CharlieRoot
24/10/17, 20:22
En wat nou als je derde node uitfikt? Ga je dan weken lang op 2 nodes draaien totdat je leverancier een nieuwe server heeft gebracht? Ook is het zo dat Ceph normaal gezien die data opnieuw gaat verdelen om weer N+2 te halen. Dat kan je natuurlijk uitstellen d.m.v. settings, maar als je dat niet lang genoeg rekt heb je dus zeer veel extra capaciteit op de overgebleven nodes nodig om de data van de derde server te verdelen.
Daarnaast zag ik wel degelijk merkbare verschillen in de performance. Ik zou zeggen laat maar eens een fio een rdb benchmark doen en trek de stekker uit een node. Naast een zeer kleine hick-up zie je wel de max iops meteen dalen. Of dat merkbaar is hangt natuurlijk van je load af.
Wat betreft het hebben van 2 netwerken ben ik het volledig met je eens. Let wel op dat je (mits je Ceph over meerdere racks verdeeld) dus niet ook maar 10 Gbps tussen die switches hebt (maar bijvoorbeeld 40 Gbps). Je kunt natuurlijk ook data per kast "laten" herverdelen, door middel van specifieke flags bij je placement groups.
Als er bij mij een derde node uit fikt duurt het geen weken om een nieuwe te bestellen, die is er morgen. Dus dat risico is prima te overzien. Heb je meer servers dan moet je zeker meer inzetten maar het hoeft niet.
Ceph zal zelf proberen de data weer elders te plaatsen maar ook dat is geen probleem toch zolang je het niet weken laat draaien zonder actie te ondernemen. Hangt niet van ceph af dus.
40Gb is bij ons nog nooit nodig geweest zelfs niet met 180tb opslag om te recoveren. Disken zijn de bottleneck en die halen geen 40gb tenzij je ze ramvol met Enterprise SSD's stopt. Met drie nodes en 2x 10gbps merk je niets van een recovery. Kwestie van goed instellen.
Wij hebben een 3-tal maanden geleden beslist om de stekker uit onze Ceph pool te trekken.. Momenteel verhuizen we de laatste VMs naar een traditionele SAN omgeving..
Niet dat Ceph niet deed wat het moest doen en we geloven absoluut in het toekomst van het product, maar je moet verdomd goed weten waar je mee bezig bent..
We hebben een aantal keer een situatie gehad waarbij we zeer klamme handen kregen omdat we niet 100% wisten wat Ceph achterliggend allemaal doet of ging doen..
En wat nou als je derde node uitfikt? Ga je dan weken lang op 2 nodes draaien totdat je leverancier een nieuwe server heeft gebracht?
Als het nodig is kijk je toch naar wat voldoet en is snel leverbaar? Wij hebben geen leveranciers die niet bepaalde configs binnen 1-2 dagen kunnen leveren, dat het mogelijk niet 100% gelijk is zou in die gevallen natuurlijk kunnen.
CharlieRoot
25/10/17, 12:36
Wij hebben een 3-tal maanden geleden beslist om de stekker uit onze Ceph pool te trekken.. Momenteel verhuizen we de laatste VMs naar een traditionele SAN omgeving..
Niet dat Ceph niet deed wat het moest doen en we geloven absoluut in het toekomst van het product, maar je moet verdomd goed weten waar je mee bezig bent..
We hebben een aantal keer een situatie gehad waarbij we zeer klamme handen kregen omdat we niet 100% wisten wat Ceph achterliggend allemaal doet of ging doen..
Dat is ook een kwestie van goed testen in een daarvoor bedoelde omgeving. Stekkers trekken en kijken wat er gebeurd en hoe je het oplost.
CharlieRoot
25/10/17, 17:02
Als het nodig is kijk je toch naar wat voldoet en is snel leverbaar? Wij hebben geen leveranciers die niet bepaalde configs binnen 1-2 dagen kunnen leveren, dat het mogelijk niet 100% gelijk is zou in die gevallen natuurlijk kunnen.
En het prachtige van ceph: het maakt niet uit wat voor server het is als je maar disken hebt en een goede raid kaart. Merk, type maakt niets uit.
Een (goede) RAID kaart is geen vereiste, hoezo zou dat zo zijn?
En het prachtige van ceph: het maakt niet uit wat voor server het is als je maar disken hebt en een goede raid kaart. Merk, type maakt niets uit.
CharlieRoot
25/10/17, 18:28
Een (goede) RAID kaart is geen vereiste, hoezo zou dat zo zijn?
Omdat al je disken vast zitten aan je raid kaart......? Is dat een serieuze vraag? Goede raid controller met cache zorgt voor betere performance.
Omdat al je disken vast zitten aan je raid kaart......? Is dat een serieuze vraag? Goede raid controller met cache zorgt voor betere performance.
Een RAID kaart is simpelweg geen vereiste. Dat iets beter performed met bepaalde hardware is geen twijfel over, maar een Ceph cluster werkt prima zonder een RAID controller.
In sommige gevallen kan het zelfs de beperkende factor zijn.
CharlieRoot
25/10/17, 19:48
Een RAID kaart is simpelweg geen vereiste. Dat iets beter performed met bepaalde hardware is geen twijfel over, maar een Ceph cluster werkt prima zonder een RAID controller.
In sommige gevallen kan het zelfs de beperkende factor zijn.
Ik zeg niet dat het een eis is. Maar als je er iets op wilt draaien met enige performance zou ik het maar wel doen.
Met Ceph moet je weten wat je doet. Het is niet zo spannend maar je kan niet de boel bij elkaar klikken.
Wij draaien inmiddels flink wat clusters en hebben het nog niet stuk kunnen krijgen.
Drie nodes met PRoxmox en Ceph gecombineerd gaat prima. Uiteraard kost Ceph geheugen, dus zet je wat meer in een node. Uiteraard kost het cpu, dus zet je wat meer in een node.
Er is een omslagpunt om het uit elkaar te trekken of gelijk met losse Ceph node te beginnen.
Maar als drie nodes genoeg performance leveren, en dan gebruiken we 100% ssd, is er geen reden om zes nodes te kopen en vm’s en storage te scheiden.
Op kantoor heb ik een Proxmox (test) cluster voor development vm's waar ik graag eens wat ervaring met ceph zou willen opdoen. Momenteel draaien de nodes op 2x ssd in raid 1 voor os + vm's. Wat raden jullie aan om aan de storage uit te breiden voor een ceph test? Kan ik bv middels partities de ssd's blijven gebruiken voor proxmox/os en de rest als log/cache voor ceph?
En om de kosten een beetje in de hand te houden, is het handiger om een partij kleine (<=500GB) hdd's op te kopen zodat je meer osd's hebt (zeg 4-5 per node) of werkt het (indien de actieve data set geheel in de cache past) net zo goed om maar 2x grote osd per node te gebruiken?
mgielissen
29/11/17, 09:14
Ik ben bezig met een ceph test setup. Deze bestaat uit 4x Proxmox 5.1 nodes. Onderling zijn de nodes verbonden met 10Gbit en dedicated Ceph netwerk. In iedere node zit een NVME SSD (500GB) en 4x SATA HDD's (1TB). De NVME wordt gebruikt voor journal en de HDD's als OSD (Ceph: Luminous - BlueStore).
De radosbench geeft ca 300MB/s write speed op de pool. Binnen een VM is de write speed ca 200 - 250MB en max 800 iops. Als ik een FIO test draai op een andere VM zakt de IOPS helemaal in elkaar. Ik zou verwachten dat de snelheid een stuk hoger zou moeten liggen of mis ik nog iets? De setup is volgens de Proxmox wiki (https://pve.proxmox.com/wiki/Ceph_Server) gedaan.
Wat voor een HDD's heb je er in zitten?
mgielissen
29/11/17, 09:44
De SSD is een Samsung SM863 en de HDD's Hitachi 1TB SATA 7200rpm
Bedoel je deze: http://hdd.userbenchmark.com/SpeedTest/1129/Hitachi-HDS721010CLA332
Die presteren niet zo geweldig. En Ceph zal de cache van die disken ook niet gebruiken meen ik.
En qua iops:
200 IOPS staat ongeveer gelijk aan de snelheid van een 15.000 toeren SAS schijf.
Je gebruikt 7200 toeren.
Dus voor mijn gevoel zit je er niet zo ver naast qua performance.
mgielissen
29/11/17, 12:19
Dus voor een goede performance met Ceph is SSD only de beste keus? ZFS en dezelfde hardware setup performed veel beter namelijk.
ZFS met Ceph vergelijken is een beetje appels met peren :-)
De disken zijn wel van belang. Meer disken is beter. Daar wordt het sneller van. En je hebt het over schrijfsnelheid.
Hoe snel kun je lezen?
Met 2 SSD's per node halen wij meer dan 1 Gbyte/s lezen en schrijven. 1,7 Gbyte lezen was de laatste meting en dat lijkt het netwerk te zijn (10 Gbit/s).
Omdat SSD's snel goedkoper worden en er in een 1HE machine veel SSD's passen leveren wij het met SSD's op. Wel afhankelijk van het aantal Terabytes dat de klant wil bij aanvang.
mgielissen
29/11/17, 12:45
Lezen is 1250MB/s
... Omdat SSD's snel goedkoper worden...
Snel duurder worden wil je zeggen (of gelijk blijven in prijs), door het te kort aan chips de laatste tijd, idem met ram trouwens.
Een 250GB ssd (samsung evo 850 reeks bvb) stond vorig jaar 90 euro voor 250GB en dat staat het nu nog steeds, een 500GB (samsung evo 960) staat nu gemiddeld 230 euro volgens tweakers pricewatch. Je zou dus denken dat 2x 250GB (500GB) goedkoper zou moeten zijn dan vorig jaar 2x 90 euro = 180 euro en nu staat dit aan 230 euro. Oké een 500GB evo 850 staat iets lager dan de 180 euro, maar je moet ook geen verouderde reeksen beginnen gebruiken lijkt me ;).
Wij gebruiken geen EVO's voor Ceph. Die presteren waarschijnlijk niet goed omdat Ceph de caching uit zet net als bij de PRO series.
De prijs per Gbyte voor de PM en SM serie is lager geworden de laatste maanden nadat ze gestegen zijn. Het schommelt natuurlijk maar over de hele lijn is er een daling.
Voorbeeld: https://tweakers.net/pricewatch/755869/samsung-sm863a-1-komma-92tb.html
Wij gebruiken geen EVO's voor Ceph. Die presteren waarschijnlijk niet goed omdat Ceph de caching uit zet net als bij de PRO series.
Ik had het ook niet specifiek over het gebruik voor ceph maar meer in het algemeen en dan is een vergelijking van een veel gebruikt model van ssd soms eens handig.
De prijs per Gbyte voor de PM en SM serie is lager geworden de laatste maanden nadat ze gestegen zijn. Het schommelt natuurlijk maar over de hele lijn is er een daling.
Feit blijft dat het geen snelle daling is, eerder dat de prijzen gelijk blijven. De wet van Moore is wat mij betreft al een hele tijd niet meer van toepassing, waar je vroeger kon zeggen dat je elke 18 maand tot 24 maand het dubbel had voor dezelfde prijs is dit al lang niet meer zo.
De wet van Moore stelt dat het aantal transistors in een geïntegreerde schakeling door de technologische vooruitgang elke twee jaar verdubbelt.
Dus of de prijs dan ook 2x zo laag wordt? :-)
Van 1400,- in mei naar 1100,- in november is een daling van € 40,00 per maand. Maar zoals je aangeeft kan het in een ander segment disken anders zijn, voor deze serie is het zeker geen stijging te noemen.
Maar genoeg over de prijs van SSD's :-)
Als we aan efficiëntie denken en iemand heeft 10 Terabyte nodig, dan is SSD best het overwegen waard omdat de servers dan maar 1 HE zijn en de performance gewoon erg goed is. Het stroomverbruik is ook laag. Ook als een disk defect raakt of bijgeplaatst moet worden is SSD wel erg prettig.
Kwestie van afwegen.
Is Ceph denk je goed te doen met consumenten SSD's zoals de Crucial MX300?
Ervaring mee?
Of hier ook het beste Enterprise SSD's gebruiken?
Bij ZFS werken consumenten SSD's namelijk niet goed, gebruik hier de SM863
CharlieRoot
04/12/17, 07:45
Is Ceph denk je goed te doen met consumenten SSD's zoals de Crucial MX300?
Ervaring mee?
Of hier ook het beste Enterprise SSD's gebruiken?
Bij ZFS werken consumenten SSD's namelijk niet goed, gebruik hier de SM863
Het werkt op zich prima maar verwacht niet de zelfde snelheden. Je zult niet veel meer dan 80-90mb halen met goedkope ssds.