PDA

Bekijk Volledige Versie : Clustering van resources en opslag



golden
12/10/12, 11:46
Beste Webhostingtalkers,

Gister probeerde ik iemand anders te helpen en kwam direct bij mijzelf ook op de vraag of wij het misschien ook beter kunnen doen dan dat we nu doen.

Wij beheren een website met wekelijks zo'n 70 miljoen pageviews wat geserveerd wordt door zo'n 200 servers. Daarvan zijn maar enkele voor het serveren van de website en de rest zijn bedoeld voor het converteren van materiaal en het aanleveren van files.

Bij het uploaden van files (gaat om een site met bedrijfsgegevens, bestanden) zoekt hij een server met voldoende opslag en resources. Nu doen wij enkel aan een raid mirror en geen losse backup aangezien het niet echt erg is mocht er wat verloren gaan.

Nu wordt het platform steeds groter en moeilijker beheerbaar. Althans servers moeten los geinstalleerd en geconfigureerd worden om aan het systeem toegevoegd te worden. Maar het resultaat is een enorm goed performend systeem.

Het enige probleem is dat converteren van files veelal videos maar ook documenten gemiddeld vrij lang kunnen duren.

Nu vraag ik me af of er een qua structuur een betere oplossing is door te gaan clusteren (?) zodat je ipv allemaal losse opslag locaties een gecombineerde hebt? (Google doet toch zoiets?). En met het voordeel om dus ook resources kan samenvoegen zodat het converteren vele malen sneller zou kunnen gaan.

We hebben vroeger met een centrale SAN gewerkt maar dat werd te kostbaar en de performance ging omlaag (750TB).

Dus ik hoop op een oplossing waarmee ik simpelweg een server zou kunnen bijpluggen die de resources vergroot, dus zowel de opslag als cpu en geheugen.

Het is in eerste instantie bedoeld om ermee te gaan spelen / experimenteren.

Alvast bedankt!

t.bloo
12/10/12, 13:24
Voor niet al te snelle storage kun je systemen als moosefs of xtreemfs gebruiken. Je prikt er een server bij en de storage wordt zonder configureren groter.

golden
12/10/12, 13:27
Voor niet al te snelle storage kun je systemen als moosefs of xtreemfs gebruiken. Je prikt er een server bij en de storage wordt zonder configureren groter.

Bedankt voor je reactie. Ik ga er eens naar kijken. Echter wat is "niet al te snel" we trekken maandelijks zo'n 1200TB aan bandbreedte. Is dat wel te doen?

avanmessen
12/10/12, 13:36
Voor niet al te snelle storage kun je systemen als moosefs of xtreemfs gebruiken. Je prikt er een server bij en de storage wordt zonder configureren groter.
Dit levert enkel extra storage en gaat je niet helpen sneller te converteren.

t.bloo
12/10/12, 13:42
duh, de holy grail is natuurlijk iets dat alle problemen in eens oplost... maar dat is er vast niet

golden
12/10/12, 13:55
Dit levert enkel extra storage en gaat je niet helpen sneller te converteren.

Dat is correct. Moet ik wel zeggen dat storage een groter probleem is dan de resources. In theorie kunnen we voor de resources een los "cloudje" opzetten die zich enkel bezig houden met converteren.

golden
12/10/12, 13:56
duh, de holy grail is natuurlijk iets dat alle problemen in eens oplost... maar dat is er vast niet

Niet te koop op Ebay? Die holy grail?

asusk7m550
12/10/12, 14:04
Je zou kunnen kijken naar een cloud oplossing. Bijvoorbeeld Swift van OpenStack.

Twee jaar geleden is hier op fosdem een presentatie over geweest http://mirror.be.gbxs.net/video.fosdem.org//2011/maintracks/openstack.xvid.avi.

Erg interessant, schaalbaar en snel.

golden
12/10/12, 14:18
Je zou kunnen kijken naar een cloud oplossing. Bijvoorbeeld Swift van OpenStack.

Twee jaar geleden is hier op fosdem een presentatie over geweest http://mirror.be.gbxs.net/video.fosdem.org//2011/maintracks/openstack.xvid.avi.

Erg interessant, schaalbaar en snel.

Ga ik eens bekijken. Swift is een ander pakket van Openstack dan Openstack zelf toch? Aangezien volgens mij Openstack voornamelijk gericht is op virtualisatie?

Kan zosnel geen presentatie site vinden van dat Switft.

asusk7m550
12/10/12, 15:05
OpenStack is het overkoepelende pakket. Waarbij Swift een onderdeel is.

Je kunt het swift ook los gebruiken zonder de rest van openstack.

Zie ook: http://wiki.openstack.org/Swift

systemdeveloper
12/10/12, 15:21
Wat wij (welliswaar een heel stuk kleiner dan 200 servers) doen is het systeem gewoon helemaal uit elkaar trekken zodat je cache, webservers, mysql, storage, videoconversies e.d. in aparte clusters onderbrengt. Heb je dan een tekort aan bv. video conversie capaciteit dan schuif je gewoon een aantal servers erbij die zich puur met conversie bezighouden. Deze kunnen dan bv. snelle procs hebben, maar kwa opslag hebben die niks interessants nodig. Dit kun je dan voor elke funktiegroep doen.

golden
12/10/12, 16:10
Wat wij (welliswaar een heel stuk kleiner dan 200 servers) doen is het systeem gewoon helemaal uit elkaar trekken zodat je cache, webservers, mysql, storage, videoconversies e.d. in aparte clusters onderbrengt. Heb je dan een tekort aan bv. video conversie capaciteit dan schuif je gewoon een aantal servers erbij die zich puur met conversie bezighouden. Deze kunnen dan bv. snelle procs hebben, maar kwa opslag hebben die niks interessants nodig. Dit kun je dan voor elke funktiegroep doen.

Is een mogelijkheid inderdaad ook. Ik ga eens wat oplossingen bekijken. Andere tips, opmerkingen of vragen zijn altijd welkom.

PimEffting
12/10/12, 21:57
Wij zijn wat aan het testen met software gebaseerd op Scality Ring.
Tot nu toe zeer onder de indruk. Wellicht is het iets voor je:
http://www.scality.com/ring-organic-storage/

Netbulae
13/10/12, 14:16
Als je echte een high performance storage cluster wil bouwen lijkt me Ceph een goede keuze. Wel ingewikkeld maar gemaakt voor HPC en hoe meer nodes hoe meer performance.

GlusterFS is weer een stuk makkelijker maar op dit moment zuigt de random write snelheid behoorlijk. Dit komt door het locking mechanisme. Red Hat is hier wel druk mee bezig. Wel een stuk volwassener daan MooseFs. Extremefs heeft weer het nadeel dat er geen fatsoenlijke beheer tools zijn.

Snelheid staat in cluster/distributed filesystems recht tegenover data integriteit, wil je het ene dan moet je consessies op het andere doen. In principe werkt het net als harddisk RAID, alle oplossingen hebben voor en nadelen.

Rubra
13/10/12, 14:52
Wij hebben een klant die zo'n 2 Petabyte aan storage platform draaien, allemaal zelfbouw.

Er zijn meerdere opties om storage sneller te laten gaan, met name in combinatie van hot content op ssd en storage storage op goedkoper sata.

PM me maar als je meer achtergrond wil.

Mark17
13/10/12, 15:49
Voor zover wij nu hebben gezien in tests met AOE/Coraid is de snelheid bij een paar SATA schijven al beperkt tot de snelheid van het netwerk. De juiste opslag oplossing is ook sterk afhankelijk van hoe je het gebruikt (met name grote of kleine bestanden maakt al een belangrijk verschil). Over enkele dagen heb ik ook meer gegevens over random lezen/schrijven met kleine bestanden tov iSCSI met SAS 15k schijven. We zullen zien waar in verhouding de limieten liggen.

golden
14/10/12, 14:51
Voor zover wij nu hebben gezien in tests met AOE/Coraid is de snelheid bij een paar SATA schijven al beperkt tot de snelheid van het netwerk. De juiste opslag oplossing is ook sterk afhankelijk van hoe je het gebruikt (met name grote of kleine bestanden maakt al een belangrijk verschil). Over enkele dagen heb ik ook meer gegevens over random lezen/schrijven met kleine bestanden tov iSCSI met SAS 15k schijven. We zullen zien waar in verhouding de limieten liggen.

In de meeste gevallen praten we over files van tussen de 200MB en 2GB. Het platform hoeft niet extreem snel te zijn zolang we maar gemakkelijk die 1.2 Miljoen GB per maand eroverheen kunnen trekken. Soms wel met enkele pieken.

golden
14/10/12, 14:53
Wij hebben een klant die zo'n 2 Petabyte aan storage platform draaien, allemaal zelfbouw.

Er zijn meerdere opties om storage sneller te laten gaan, met name in combinatie van hot content op ssd en storage storage op goedkoper sata.

PM me maar als je meer achtergrond wil.

Dank voor je reactie. Mag ik vragen om wat voor gegevens het gaat? Is het voornamelijk eenmalige opslag of wordt er achteraf nog veel mee gedaan?

Daarnaast is ons huidige platform super snel en lopen we niet tegen problemen aan. Echter willen we het meer onderhoudbaar. Dus inpluggen van extra server en hoppa daar heb je weer xxTB extra.

systemdeveloper
14/10/12, 21:35
Dank voor je reactie. Mag ik vragen om wat voor gegevens het gaat? Is het voornamelijk eenmalige opslag of wordt er achteraf nog veel mee gedaan?

Daarnaast is ons huidige platform super snel en lopen we niet tegen problemen aan. Echter willen we het meer onderhoudbaar. Dus inpluggen van extra server en hoppa daar heb je weer xxTB extra.

Als je op de huidige manier wilt blijven werken, dan kun je eigenlijk ook gewoon een pxe server pakken met kant en klare images of met kickstartfiles. Server in het rack, booten en klaar.

PimEffting
15/10/12, 09:31
Daarnaast is ons huidige platform super snel en lopen we niet tegen problemen aan. Echter willen we het meer onderhoudbaar. Dus inpluggen van extra server en hoppa daar heb je weer xxTB extra.
Dat kan dus met Scality. Je kunt ook zelf het redundantieniveau (replicas) instellen en zo bepalen hoeveel overhead je kwijt wilt zijn voor redundantie. Je krijgt een RAID-array over meerdere servers die je ook nog eens on-the-fly kunt uitbreiden.
Volgende maand lanceren we zelf een platform op basis van deze software in productieomgeving, maar de beta was erg indrukwekkend.
Als je het wilt zien in de praktijk mag je best even komen kijken als het live is.

golden
15/10/12, 11:12
Dat kan dus met Scality. Je kunt ook zelf het redundantieniveau (replicas) instellen en zo bepalen hoeveel overhead je kwijt wilt zijn voor redundantie. Je krijgt een RAID-array over meerdere servers die je ook nog eens on-the-fly kunt uitbreiden.
Volgende maand lanceren we zelf een platform op basis van deze software in productieomgeving, maar de beta was erg indrukwekkend.
Als je het wilt zien in de praktijk mag je best even komen kijken als het live is.

Dat zou ik leuk vinden! Kan je een PM doen zodra het draait?

crossplatform
15/10/12, 11:53
Dat kan dus met Scality. Je kunt ook zelf het redundantieniveau (replicas) instellen en zo bepalen hoeveel overhead je kwijt wilt zijn voor redundantie. Je krijgt een RAID-array over meerdere servers die je ook nog eens on-the-fly kunt uitbreiden.
Volgende maand lanceren we zelf een platform op basis van deze software in productieomgeving, maar de beta was erg indrukwekkend.
Als je het wilt zien in de praktijk mag je best even komen kijken als het live is.

Beetje ala HP StorageWorks Pnogwat (het vroegere Lefthand). Daarbij kan je je storage omgeving vergroten door een storage node "erbij te prikken".
Super mooi spul, maar niet goedkoop.

golden
15/10/12, 11:58
Beetje ala HP StorageWorks Pnogwat (het vroegere Lefthand). Daarbij kan je je storage omgeving vergroten door een storage node "erbij te prikken".
Super mooi spul, maar niet goedkoop.

Dat is dus het probleem. We besparen niet op hardware omdat dat gewoon goed moet zijn. Enkel is die 750TB opgebouwd in een kleine 4 maanden en het stijgt snel. De groei is enorm. En dan zijn dat soort oplossingen gewoonweg te prijzig.

crossplatform
15/10/12, 12:40
Scality ziet er erg goed uit, moet ik zeggen. Zou prima kunnen aansluiten op jullie behoeftes.
Ik ben benieuwd!

golden
15/10/12, 12:57
Scality ziet er erg goed uit, moet ik zeggen. Zou prima kunnen aansluiten op jullie behoeftes.
Ik ben benieuwd!

Klopt! Alleen jammer dat ik nergens prijzen kan vinden.

Ik ga iig alle vorderingen bijhouden in dit topic. Tips en ideeën zijn natuurlijk altijd welkom.

Mark17
16/10/12, 18:35
Op basis van een 10gbit netwerk zou het met AOE en meerdere servers goed te doen moeten zijn. Enorm schaalbaar (schroef er een doos bij, 2 commando's op de CLI op de nieuwe server en 2 op de server ervoor en het draait). Mogelijk lukt het ook met een gbit netwerk, maar dan is je groei iets eerder beperkt.

Bij de genoemde hoeveelheden opslag zal vast ook iets met de prijs te doen zijn.

De laag ervoor kun je vervolgens per cluster met een bepaalde taak doen. Dit maakt het super makkelijk om bij te schalen waar het nodig is.

Smashmint
16/10/12, 19:46
Op basis van een 10gbit netwerk zou het met AOE en meerdere servers goed te doen moeten zijn.

10gbit voor Age of Empires :thumbup: ?

golden
16/10/12, 20:23
10gbit voor Age of Empires :thumbup: ?


Maar er spelen dan ook wel tenminste 3 mensen in de Age of Empires server hoor :P

Yourwebhoster
16/10/12, 21:05
10gbit voor Age of Empires :thumbup: ?

AoE aka ATA over Ethernet. FYI http://en.wikipedia.org/wiki/ATA_over_Ethernet

Smashmint
16/10/12, 21:21
Het was sarcastisch bedoeld..

golden
16/10/12, 21:27
Het was sarcastisch bedoeld..


Dat snap ik ;).