[Cent OS 5.5] Software Raid elke paar dagen degraded [Archief]

Mick-X

09/09/10, 23:26

Hallo,

Ik heb een dedi server draaien met daarop CentOS 5.5 Final, welke vervolgens 2 Seagate 2TB schijven in een software RAID 0 (stripeset) heeft draaien.
Door middel van de stripeset maakt de software raid er een volume van bijna 3.8TB van, dat is ook de bedoeling.

Echter..om de paar dagen blijkt om 1 of andere vage reden de raid degraded te zijn, en reageerd deze niet meer totdat er tijdens het opnieuw opstarten op F1 gedrukt word, om de raid te rebuilden. Op afstand gaat dit niet, omdat de server zich "vast slaat" en niet meer remote te bereiken is.

Nu heb ik niet erg veel Linux kennis, maar inmiddels is dit de 2de keer op 1 week tijd gebeurd.. heeft iemand een idee wat dit zou kunnen zijn?
Beide schijven net hagelnieuw, en werken gewoon..

systemdeveloper

09/09/10, 23:32

Gebruik je raid disks of is het zo'n 'groene' disk die in slaap sukkelt?

Lite-On

09/09/10, 23:35

Gebruik je de "fake" raid van de bios? Of gewoon de software raid binnen CentOS zelf?

Mick-X

09/09/10, 23:54

@ systemdeveloper, het zou wellicht aan de schijven kunnen liggen. ik heb 2 andere disks besteld, ik hoop dat ze zsm binnenzijn.

@ Lite-On, de software raid binnen CentOS zelf.

RayManZ

09/09/10, 23:56

De Green versie van hardeschijven moet je in ieder geval niet hebben. Die gaan na een tijdje in slaapstand als ze niks doen. Dat is namelijk energie zuinig. Zorg dat je de Raid versie neemt. Die zijn ervoor gemaakt.

Mick-X

09/09/10, 23:58

True, dat weet ik. Wat ik echter raar vind is dat de server een week lang perfect gewerkt heeft, en nu de 2de keer op 2 dagen tijd de array degraded heeft.

systemdeveloper

10/09/10, 00:02

De echt raid versies moet je alleen gebruiken bij hardware raid omdat die bepaalde functionaliteit missen die door hardware controllers wordt opgevangen.

Een tijd geleden riep wonko hier nog ergens dat raid 1 in bepaalde gevallen bijna even snel kan zijn (lezen) als raid 1. Ik heb het zelf nog niet meegemaakt, maar als je de raid 0 niet nodig hebt voor de schrijfsnelheid is het misschien te overwegen.

Je disk kan natuurlijk ook gewoon kapot zijn... heb het zelf ook al vaker gehad met nieuwe schijven, dus ik vertrouw een schijf pas als ie 3 maanden draaid :)

Bleh: begin scheel te worden... staat gewoon softraid in de titel :(

Wynand

10/09/10, 00:05

De echt raid versies moet je alleen gebruiken bij hardware raid omdat die bepaalde functionaliteit missen die door hardware controllers wordt opgevangen.Zoals?

Een tijd geleden riep wonko hier nog ergens dat raid 1 in bepaalde gevallen bijna even snel kan zijn (lezen) als raid 1.Bedtijd. :cool:

systemdeveloper

10/09/10, 00:16

Zoals?

Bedtijd. :cool:
De RE schijven maken gebruik van time limited error recovery.
Bij een fout geven de RE's het sneller op (enkele seconden) dan gewone schijven (tot een minuut). In dat geval moet de raidcontroller dit wel fixen en dat kost tijd. Bij softraid langer dan bij hardware.
Heb je geen RE schijf en die komt een paar bad sectors tegen, dan kan het dus wel een minuut duren voordat die schijf het opgeeft. Bij een beetje drukke server op zo'n moment val je dan snel van het ene gat in het andere.

Dat verhaal van wonko wilde ik eerst ook niet aan.. maar ik ben eens wat gaan lezen en het blijkt dat een raid 1 in bepaalde gevallen en bij bepaalde controllers (al is het zelden) inderdaad in theorie zelfs sneller dan raid 0 kan zijn bij lezen.
Dit komt omdat op raid 1 ALLE data gedupliceerd is terwijl kleine bestanden ( < 1 blokgrootte ) op een raid 0 maar op 1 disk worden opgeslagen. Een intelligente controller heeft bij raid 1 altijd de beschikking over de gehele dataset op beide disks en kan dus een 2de leesactie starten.

Kanttekening: in productie moet ik het zelf nog eerst eens zien gebeuren.allemaal.

Mick-X

10/09/10, 00:26

bedankt voor alle info, 2 nieuwe schijven komen eraan, de 2 wat er nu in zitten zal ik gaan testen, ik vind het een beetje lullig als er inderdaad een kapotte disk tussen zou zitten, ze zijn nog geen week geleden gekocht...

De RAID 0 (stripeset) is voor de grote hoeveelheid beschikbare data, het hoeft daarom geen mirror te zijn, maar 2 disks aan elkaar gelinkt met raid 0 word 1 disk van 3,8TB, en dat wilde de klant graag, een grote hoeveelheid opslag.

systemdeveloper

10/09/10, 00:34

Tim.Bracquez

10/09/10, 00:37

... ik vind het een beetje lullig als er inderdaad een kapotte disk tussen zou zitten, ze zijn nog geen week geleden gekocht...
Hier worden zelfs geen nieuwe schijven aan klanten geleverd. Die gaan eerst de testbak in waar tests op worden uitgevoerd voor een hele periode. Nieuwe schijven sneuvelen te vaak. Een tijdje geleden een serie gekocht, en na 2 dagen mochten er al enkele de deur uit voor replacement.

Ik zou denken aan een kapotte schijf.

Mick-X

10/09/10, 00:56

Bedankt voor alle reacties so far.

@Tim.Braquez: Hoe test je ze? wat benchmarks eroverheen draaien en kijken of er fouten komen? of via hdspin e.d. sector check?

Tim.Bracquez

10/09/10, 01:34

Bedankt voor alle reacties so far.

@Tim.Braquez: Hoe test je ze? wat benchmarks eroverheen draaien en kijken of er fouten komen? of via hdspin e.d. sector check?
Er zijn vele methodes. Hier vollop aan het experminenteren om een éénduidig scriptje te maken.

Momenteel is het wat afwisselend testen met bonnie++, schrijven en sectortests om de x keer. Smart status ook altijd in het oog houden.

Indien iemand hiervoor een betere methode heeft of test tools heeft welke dit kunnen (voor lange testen) ...

dreamhost_nl

10/09/10, 15:26

Nieuwe schijven sneuvelen te vaak. Een tijdje geleden een serie gekocht, en na 2 dagen mochten er al enkele de deur uit voor replacement.

Vraag me dan toch af wat voor type en merk je gebruikt en - nog belangrijker - waarom je dat blijft gebruiken?

t.bloo

10/09/10, 15:57

Ach ik heb snel defecte disks bij zowel Hitachi, Samsung, Seagate en Western Digital gehad. Als ik die allemaal niet meer zou mogen gebruiken dan blijft er weinig meer over.

Overigens, als je een grote disk wil en RAID-0 niet voor de snelheid nodig hebt, dan zou je ze met LVM ook als een JBOD in kunnen stellen. Dan heb je minder last van uitvallende schijven. Je hebt dan nog wel errors, maar maar op de halve ruimte zeg maar en je hebt dan in ieder geval geen degraded RAID-0 situatie (want dat is wel het laatste wat je wil hebben).

The-BosS

10/09/10, 16:15

Vraag me dan toch af wat voor type en merk je gebruikt en - nog belangrijker - waarom je dat blijft gebruiken?

Kan bij alle merken gebeuren dat er eens een slechte serie is hoor, heb dit al met hitachi/ibm, seagate, wd, maxtor, als met samsung gehad. Dus daar is niet echt een oordeel over te vellen.

Tim.Bracquez

10/09/10, 16:47

Vraag me dan toch af wat voor type en merk je gebruikt en - nog belangrijker - waarom je dat blijft gebruiken?
Was gewoon van één bestelling en heb niet gezegd dat we die blijven gebruiken (die serie). Echter schijven falen sneller de eerste maanden. Dat was trouwens van seagate, maar ook van Western Digital, hitachi, samsung en andere falen er wel enkele. Dit zowel in de Raid Edition's als de 'desktop' versies.

EDIT: Dennis en t.bloo waren me voor

systemdeveloper

10/09/10, 17:00

Ook goede schijven gaan kapot hoor. Leg de flatcable maar eens voor de fan en start een 24 uurs burnin test :)

dreamhost_nl

10/09/10, 19:54

Het is wellicht de manier waarop het verwoord (of opgevat) werd dat er werd uitgegaan van één merk/type dat constant werd gebruikt en waarbij veel uitval was. Verkeerde aanname dus.

Tim.Bracquez

10/09/10, 22:43

Het is wellicht de manier waarop het verwoord (of opgevat) werd dat er werd uitgegaan van één merk/type dat constant werd gebruikt en waarbij veel uitval was. Verkeerde aanname dus.
Ja klopt als je die in serie koopt heb je soms wel eens pech dat je met een slechte reeks zit

Mick-X

11/09/10, 10:01

Beetje jammer, de schijven komen pas na het weekend binnen. Maar een reserve dedi staat klaar dus het probleem is hiermee deels opgelost. Blijkbaar is toch 1 van de disks gesneuveld, zonde.

Hebben SSD's ook het risico dat deze na een week of maand falen? er zitten immers geen roterende onderdelen in..

Mark17

11/09/10, 15:20

Hebben SSD's ook het risico dat deze na een week of maand falen? er zitten immers geen roterende onderdelen in..

Ga er maar vanuit dat ze dat hebben. Een van onze toeleveranciers kon geregeld een heel stel SSDs terug sturen naar hun leverancier door problemen met de schijven. In een raid omgeving met 16 schijven vielen er soms meer dan 2 per dag uit.

The-BosS

11/09/10, 16:49

Hebben SSD's ook het risico dat deze na een week of maand falen? er zitten immers geen roterende onderdelen in..

In een SSD zitten geen roterende onderdelen, je kan het vergelijken met een pimpt-up usb stick. Maar net zoals met usb sticks kunnen hier soms ook slechte niet werkende tussen zitten. Veel hangt bij SSD af van de chipsets en onderdelen die gebruikt worden. Net zoals je bij ram latten dus ook soms slechte kunt hebben.

systemdeveloper

11/09/10, 17:03

Vergeet ook niet dat de iets oudere/goedkopere ssd's behoorlijk traag kunnen worden naarmate ze gevuld raken. De nieuwe intels gaan hier beter mee om, maar dat zie je ook terug in de prijs.

Mick-X

24/09/10, 10:21

Wellicht offtopic, maar ik vroeg me het volgende af.
In hoevere is een hoster verantwoordelijk voor het functioneren van een unmanaged dedicated server? Buiten dat ik 2 nieuwe disks erin heb gezet, en de server fysiek vervangen heb voor een spare exemplaar (nieuw uit doos) heeft het geheel 2 weken gewerkt en heeft nu alweer storing, niet meer te bereiken.

Hoe kan ik nagaan of de fout bij mij ligt of bij de klant welke iets verkeerds doet?
Alles in mijn netwerk functioneerd, behalve die server.

De schijven staan niet in raid, gewoon los als 2 aparte disks.

T. Verhaeg

24/09/10, 10:24

Wellicht toch eens even kijken wat er zich op dat bakje afspeelt? (bash history?)

Piwi-Web

24/09/10, 10:32

monitoring installeren? En wanneer je er bent de logs even nalopen

Mick-X

24/09/10, 10:34

monitoring installeren? En wanneer je er bent de logs even nalopen

Het enigste wat te zien is is een stevige piek dataverkeer vlak voordat de server niet meer reageerd. Ik zal eens op onderzoek uitgaan, bedankt Pim.

Piwi-Web

24/09/10, 10:37

Het enigste wat te zien is is een stevige piek dataverkeer vlak voordat de server niet meer reageerd. Ik zal eens op onderzoek uitgaan, bedankt Pim.

Ik kan je server in mijn zabbix monitoring gooien als je wilt ;) Geef ik je daarna toegang tot alle statistics van die betreffende server en dan kan je op onderzoek uit =)
Of eigen zabbixbakkie installeren :thumbup:

Serveo

24/09/10, 10:39

Het enigste wat te zien is is een stevige piek dataverkeer vlak voordat de server niet meer reageerd. Ik zal eens op onderzoek uitgaan, bedankt Pim.

Hoe groot is die piek? Dus hoeveel data.

Mick-X

24/09/10, 10:44

Hoe groot is die piek? Dus hoeveel data.

Ja groot, wat is groot, een server een historie heeft met weinig traffic en dan vanuit het niets +/- 25 mbit, gedurende anderhalfuur ongeveer, en daarna was alles ombereikbaar.
In totaal iets van 3GB downstream.

Piwi-Web

24/09/10, 10:46

+/- 30 mbit vanuit het niets, gedurende anderhalfuur ongeveer, en daarna was alles ombereikbaar.

Je analyseert je uplink zeker niet he? Zou je dat doen kan je kijken waar dat allemaal heen gaat en wat voor packets het zijn :)
Met een piek in cacti kan je erg weinig helaas :(

Mick-X

24/09/10, 10:48

@ Piwi; nee ik analyseer de uplink niet (privacy e.d.). Als ik vermoed dat er iets gaande is kan ik de uplink wel mirrorren maar dat doe ik alleen als iets aan de hand is.

Piwi-Web

24/09/10, 11:01

@ Piwi; nee ik analyseer de uplink niet (privacy e.d.). Als ik vermoed dat er iets gaande is kan ik de uplink wel mirrorren maar dat doe ik alleen als iets aan de hand is.

Doe het ook niet, maar het hoeft niet persé om privacyredenen te zijn gezien je de meeste programma's alleen het soort verkeer analyseren (en niet wat de informatie die erin staat).

Mjeh, succes ermee en als je tijdelijk die monitoring nodig hebt doe je mij maar een mailtje ;)

The-BosS

24/09/10, 14:34

De schijven staan niet in raid, gewoon los als 2 aparte disks.

Je klant deze toevallig niet onder soft-raid ofzo draaien? Wat betreft je piek, is niet zo ongewoon te noemen. Had verleden maand een klant die even besliste zijn server volledig te backupen, die heeft 10 uur de volle 100mbit zitten trekken zonder problemen. Ik heb zo eerder een vermoeden dat klant vastloopt op een kernel panic of mem leak (of gewoon te weinig mem voor wat hij wil gebruiken).

EDIT: Om het zeker te weten draai eens benchmark/test tools vanaf usb/bootable cd op de hardware, dan weet je 100% zeker dat die in orde is (hd checks, mem test, cpu test, ...)

Mick-X

24/09/10, 14:50

Je klant deze toevallig niet onder soft-raid ofzo draaien? Wat betreft je piek, is niet zo ongewoon te noemen. Had verleden maand een klant die even besliste zijn server volledig te backupen, die heeft 10 uur de volle 100mbit zitten trekken zonder problemen. Ik heb zo eerder een vermoeden dat klant vastloopt op een kernel panic of mem leak (of gewoon te weinig mem voor wat hij wil gebruiken).

EDIT: Om het zeker te weten draai eens benchmark/test tools vanaf usb/bootable cd op de hardware, dan weet je 100% zeker dat die in orde is (hd checks, mem test, cpu test, ...)

Net even met een engineer on site gesproken, er zijn sporen van een mogelijke hack. De server word opnieuw geinstalleerd.

Piwi-Web

24/09/10, 15:17

Net even met een engineer on site gesproken, er zijn sporen van een mogelijke hack. De server word opnieuw geinstalleerd.

Adviseer je klant dan dat hij zijn server beveiligd + actief monitoring doet + csf/lfd (o.a. voor beveiliging... weet niet wat hij erop draait)