Bekijk Volledige Versie : Storage voor heel veel bestanden
FransVanNispen
04/02/09, 14:00
Ik ben momenteel aan het bekijken wat de opties zijn om een enorme lading aan bestanden op te slaan.
Het gaat voornamelijk om grafische en audio data bestanden, maar de opzet moet makkelijk 6+ miljoen verschillende bestanden aankunnen.
De opzet moet ook schaalbaar zijn.
Omdat backuppen van de data haast niet te doen is, daar de verwachting is dat binnen 2 jaar het geheel tussen de 10 en 15Tb kan worden, denken wij aan een redundant systeem.
Is er iemand die ervaring heeft met dergelijke grote hoeveelheden files die wat tips of ideeën kan meegeven?
Heb je een budget? Ik kan namelijk wel wat dingen noemen, maar die verschillen nog al in prijs.
Van equallogic (echte schaalbaarheid) tot iets als een supermicro storage server met externe disk cabinets eronder.
Ik denk dat vooral één vraag belangrijk is, moet het één filesystem worden of mogen het er meerdere zijn?
FransVanNispen
04/02/09, 14:29
Het budget moet mee schalen ;)
Equalogic heb ik aan zitten denken, maar de prijs per Gb is erg hoog. En omdat het om een enorme lading bestanden gaat, is dat niet het enige antwoord.
Ik vraag me idd af of het wel verstandig is om het één distributed filesysteem te maken. De bestanden worden opgehaald/opgeslagen onder een ID. Dit maakt het redelijk eenvoudig om de storage te segmenteren.
systemdeveloper
04/02/09, 15:58
Misschien is een oplossing zoals MogileFS iets voor je?
Omdat de boel toch goed te segmenteren is kun je vanalles gaan inzetten natuurlijk; van storages die elkaar repliceren tot het mounten van extra space wanneer je het nodig hebt. Zolang je maar zorgt dat je bestanden niet allemaal in 1 subdir komen staan. Althans, dat deze niet al te groot worden, anders ga je wel problemen krijgen, maar dat is altijd natuurlijk.
Wat in deze enorm belangrijk is om te weten, is of de files ook heel veel geaccesst gaan worden...
FransVanNispen
04/02/09, 17:12
De files moeten ook goed accessable zijn idd. En ook met meerdere downloads van 1 bestand te gelijk.
Hoi,
Met behulp van Open-E DSS kun je ahw een RAID-1 setup maken van 2 storage units. Dit werkt enkel via iSCSI.
Zie: http://www.open-e.com/site_media/download/products/files/Open-E_Volume_Replication_with_Failover_over_a_LAN_Nove mber.pdf
Als je dan met bijvoorbeeld 2 x een Supermicro chassis met SAS expander en SAS raid een systeem bouwt kun je er later zoveel schijven chassis' er aan koppelen als je raid controller ondersteund.
Zo'n systeem kan aardig meegroeien met je budget en afhankelijk van je performance benodigdheden kun je je hardware afstemmen.
Eventueel kun je ook enkel met Supermicro chassis een redundante SAS storage maken mbv de chassis met dubbele SAS expanders. Ik heb hiervan waarschijnlijk nog wel ergens een whitepaper.
Henri
Kijk is naar Lustre als oplossing voor je filesystem.
2 x 24TB SAN met realtime failover komt bij Supermicro op een kleine 20k.
Performance: 600MB sustained read, 4-500MB write
Bijvoorbeeld, 2x:
STID2442: 24TB SATA/SAS RAID 5/6/10/50/60, 8x10Gbit - 16xGbit LAN, 64GB cache, iSCSI (SAN) & NAS
1 * 3 Jaar Ahead-IT Server Service met EasyRMA+, Advanced Replacement Service & gratis levering
1 * Open-E DDS NAS + iSCSI all-in-one: 16TB
1 * Open-E 8TB Licence Key voor iSCSI/NAS-R3 & DDS
1 * Supermicro X7DBi+ Server Moederbord
1 * Supermicro AOC-STG-I2 Netwerk Kaart, 2 x 10Gbit/sec
1 * Supermicro SC846TQ-R900B, hot-swappable, redundante voeding, 3U, rails incl.
1 * Adaptec 52445, 28 x SATA/SAS hardware RAID 24int/4ext, 512MB cache, PCI-E
1 * Adaptec ABM 800 Battery Backup Module Kit
1 * Supermicro IPMI 2.0 SIMLP+ met KVM over IP
8 * Kingston 4096MB DDR-2 667Mhz Fully Buffered ECC
24 * Western Digital 1000GB, SATA II, 32MB, 7200rpm, raid edition
2 * Intel Xeon L5420, Harpertown 2.5Ghz Quad Core, FSB1333, 12MB, 32/64 bit, VT, 50W low-voltage
Daarboven is deze oplossing uit te breiden met JBOD-systemen, tot 192 disks (192TB).
Je weet ons te vinden indien interesse/extra info.
Waarom is het bijna niet te backuppen? Onze grootste installatie heeft dan wel geen 6 miljoen bestanden, maar wel bijna 1 miljoen bestanden. Daarvan kunnen back-ups gemaakt worden zonder enig probleem. Dat doen we zelfs middels een online (internet) back-up.
__________________
CrashPlan.nl • automatische online backup
voor Windows, Mac OS X, Linux en Solaris
Laagste prijs per GB opslagruimte in Nederland.
http://www.crashplan.nl/online-backup/online-backup.html
FransVanNispen
04/02/09, 23:29
Backuppen kan altijd. Maar het systeem moet 24/7 live zijn en er is daarom ook geen backup tijdframe.
Backups moeten daarom ten alle tijden worden getrokken van een slave systeem.
Het probleem zal waarschijnlijk vooral gaan zitten in de hoeveelheid bestanden.
Het plaatsen van 1 of meerdere SAN's is dus niet een totaal oplossing die we zoeken, want daarmee is de vraag hoe je deze hoeveelheden files goed aan kan niet beantwoord.
Het zal dus neer gaan komen op redundant systemen, hetzij Equaligics, hetzij SuperMicro storage machines met de optie er gesegmenteerd meerdere van te zetten.
Maar welk bestandsysteem kan deze hoeveelheden bestanden op een veilige betrouwbare manier aan?
Kijk eens naar glusterfs. Zeer schaalbaar en HA ingebouwd.
wij gebruiken openfiler voor een soortgelijke oplossing, misschien de moeite waard om te onderzoeken
Maar welk bestandsysteem kan deze hoeveelheden bestanden op een veilige betrouwbare manier aan?
Hmm, nogmaals dan.
Fifteen of the top 30 supercomputers in the world use Lustre file systems, including the world's second fastest supercomputer, the Blue Gene/L at Lawrence Livermore National Laboratory (LLNL) [3]. Other supercomputers that use the Lustre file system include systems at Oak Ridge National Laboratory, Pacific Northwest National Laboratory, and NASA[4] in North America, the largest system in Asia at Tokyo Institute of Technology[5], and one of the largest systems in Europe at CEA [6].
Lustre file systems can support up to tens of thousands of client systems, petabytes (PBs) of storage and hundreds of gigabytes per second (GB/s) of I/O throughput. Businesses ranging from Internet service providers to large financial institutions deploy Lustre file systems in their data centers. Due to the high scalability of Lustre file systems, Lustre deployments are popular in the oil and gas, manufacturing, rich media and finance sectors.[7]
Source: http://en.wikipedia.org/wiki/Lustre_(file_system)
jinxedworld
05/02/09, 10:36
Backups moeten daarom ten alle tijden worden getrokken van een slave systeem.
Het probleem zal waarschijnlijk vooral gaan zitten in de hoeveelheid bestanden.
Ik denk niet dat je filebased backups moet gaan maken, kost inderdaad een bak aan tijd. Ik zou gaan voor een blockdevice gebaseerde backup. Dan hoef je niet al je files door te spitten. Wij gebruiken zelf R1soft, en hebben daar een flinke stapel servers op draaien die het erg goed doen. Elke bak krijgt om de 6 uur een backup, en je merkt er geen bal van, alleen de initial seed kan even duren, maar da's logisch.
Aangezien het in jouw geval om een behoorlijk aantal TB'tjes zal gaan is het misschien wijsheid om even contact met ze op te nemen en te vragen hoe hun pakket ermee om gaat. Ik heb er in ieder geval tot nu toe alleen maar positieve ervaringen mee! http://www.r1soft.com/
Maar welk bestandsysteem kan deze hoeveelheden bestanden op een veilige betrouwbare manier aan?
Indien je voor 1 huge filesystem gaat kun je denken aan XFS:
http://en.wikipedia.org/wiki/XFS
Als je dan XFS boven op je lvm draait kun je prima snapshots maken met je lvm en die wegzetten.
Ligt natuurlijk wel aan wat je aan onderliggende hardware hebt:)
De kracht van XFS komt juist naar voren bij hele grote bestanden, niet heel veel kleintjes.
Met een aantal virtual machines heb ik eens een geclusterd filesystem opgezet met RedHat's GFS. Wat prettig is aan deze oplossing is dat alles goed gedocumenteerd is en dat met RedHat of CentOS geen gefriemel met drivers en kernels nodig is -- alles wordt standaard meegeleverd.
http://www.redhat.com/gfs/
http://en.wikipedia.org/wiki/Global_File_System
Hiermee kun je een aantal simpele RAID setups op een aantal simpele systemen aan elkaar knopen.
Wat jullie overigens ook doen, ik zou wel degelijk in het budget kijken voor het backup oplossing.
Frans, voor backup zou 's kunnen kijken naar Avamar.
Avamar is een product van EMC, het is niet de goedkoopste, maar wel een van de betere.
In tegendeel tot vele backup software backuped deze niet de gehele bestanden, maar de bits die gewijzigd zijn. Google 's even anders op Avamar.
Indien interesse om een Supermicro/Open-E systeem te testen dan kan dit via http://www.trysupermicro.be . Via hier kan je een systeem "bestellen" en testen voor 30 dagen. Lukt het niet of niet tevreden, dan komen we de server terug ophalen. Je hebt dus niets te verliezen & geen risico, buiten de testtijd uiteraard.
Benieuwd naar de mogelijkheden en onmogelijkheden van de backup software die we zelf als dienst aanbieden, zijn we een test gestart met heel veel bestanden.
In deze test worden naar schatting 12 miljoen verschillende (.png) bestanden aangemaakt. Tegelijkertijd worden deze bestanden ook online gebackupt.
Momenteel zijn er al zo'n 2,1 miljoen bestanden aangemaakt, waarvan er 1 miljoen zijn veiliggesteld, en de software gaat vrolijk verder met het back-uppen.
Ter informatie, het gebruikte bestandssysteem is HFS+/Mac OS Extended (journaled).
De online backup software werd getest tot en met 10.493.378 bestanden.
Die 10 miljoen bestanden werden correct veilig gesteld.
Er zijn bedrijven zoals h.... art, daar kun je onbeperkte data kwijt voor onder de 200 euro (eenmalig) ;) Gooi daar eens wat TB's neer. Weet alleen niet of ze er volgende week nog staan :P
Ik sluit me aan bij Kixtart. Wij werken al jaren met supermicro, prima merk en je kunt het uitbouwen zoals je zelf wilt!
Dat hoort hier niet thuis, tweedehands-sectie lijkt me correcter. Misschien toch nog maar even de regeltjes lezen
Ik zou ZFS op een X4500-series Sun (Oracle?) systeem aanraden.
Ik zou ZFS op een X4500-series Sun (Oracle?) systeem aanraden.
heb je daar ervaring mee? heb wel eens rond gekeken tussen de specs en ziet er zeker leuk uit.
Iemand hier uberhaupt ervaring met ZFS voor bv hele grote files, of juist heel veel kleine files?
Ik zou ZFS op een X4500-series Sun (Oracle?) systeem aanraden.
X4500 is al een poosje EOL, word dan X4540 denk ik ;-)
X4500-series zei ik dan ook; wat zou beduiden dat je de X4500 reeks bekijkt, en kijkt wat intressant is voor jezelf (kan een X4500 zijn van op ebay, of een gloednieuwe X4540 van Sun zelf, hangt wat van het budget af...).
heb je daar ervaring mee? heb wel eens rond gekeken tussen de specs en ziet er zeker leuk uit.
Idd ervaring mee, supersystemen als je grote opslag zoekt, zekerheid, en er toch iets meer wil voor neertellen.