PDA

Bekijk Volledige Versie : Probleem met een van onze servers



dreamhost_nl
19/04/07, 10:31
Beste concullegae,

Hierbij graag jullie aandacht voor een probleem met de volgende produktie server :

-SuperMicro Superserver 1020A-T (SuperMicro H8DAR-T MB / SuperMicro SC813T+500 1U case)
-3Ware Escalade 8006-2 controller
-2x Maxtor DiamondMax Plus 10 250GB RAID-1 op 8006-2
-1x Maxtor DiamondMax Plus 10 200GB aangesloten op on-board controller voor backup
-2x AMD Opteron 244 CPU S940
-4x Kingston DIMM 512MB PC3200 400” (KVR400D8R3A/512 = ECC REG)

Sinds enkele dagen heeft deze server een constante server load die variëert van 6 to 70(!), terwijl deze normaliter rond de 0.70 zit. Uit onderzoek door ons en onze netwerkleverancier is gebleken dat het hier om een "degraded" RAID-1 array ging. Dit was al enigszins vreemd want hiervoor zou in principe een van de schijven defect dienen te zijn. Van beide schijven bleek echter los te kunnen booten. De RAID-1 array is daarna "rebuild" wat gepaard ging met server loads van 70. Inmiddels is de RAID-1 array rebuild, maar de server load is nog steeds zo hoog. Herkent iemand dit probleem en kan iemand hier een oplossing voor geven?

Mijn persoonlijke mening is dat de 8006-2 gewoon defect is, maar ik kan hier verkeerd in zijn. Alle hulp hierin is zeer welkom, want de klanten op deze server zijn hiervan nu de dupe.

host3000
19/04/07, 10:35
Probeer het eens met de write chache op de 8006-2 uit. Die geeft regelmatig degraded arrays.

dreamhost_nl
19/04/07, 10:57
Ik denk niet dat dat het is, aangezien het rebuilden ook niet het probleem heeft opgelost.

Is het nu zo dat als de 8006-2 vervangen wordt door een andere controller, dat de schijven er zonder problemen in kunnen worden geplaatst?

De server staat nu in de EA suite in het EasyNet DC. Indien iemand zin heeft en tijd om er met mij naar te kunnen kijken zou dat zeer op prijs worden gesteld.

Alvast bedankt.

host3000
19/04/07, 11:02
Rebuilden kan goed gaan totdat de chache een probleem geeft. Overigens hoef je niet te rebuilden als je de write chache uit zet, dus het is snel genoeg geprobeerd.

Jesperw
19/04/07, 11:44
Is je server ook echt traag? Problemen met IO zorgen soms voor hoge loads, maar vertragen niet. Zo ook bij bijvoorbeeld NFS.

dreamhost_nl
19/04/07, 11:51
Rebuilden kan goed gaan totdat de chache een probleem geeft. Overigens hoef je niet te rebuilden als je de write chache uit zet, dus het is snel genoeg geprobeerd.

Hoe kan de write cache worden gedeactiveerd? Ik kan alleen remote bij de server.


Is je server ook echt traag? Problemen met IO zorgen soms voor hoge loads, maar vertragen niet. Zo ook bij bijvoorbeeld NFS.

De server reageert wel ietswat trager op requests in SSH. Web sites laden redelijk snel (in etappes).

Hans
19/04/07, 12:22
Met 3dm2 of tw_cli kan je eenvoudig de write cache in- en uitschakelen. Weet niet uit m'n hoofd waar de optie zit.

dreamhost_nl
19/04/07, 13:27
//server> show

Ctl Model Ports Drives Units NotOpt RRate VRate BBU
------------------------------------------------------------------------
c0 8006-2LP 2 2 1 1 2 - -

//server> /c0 show

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-1 REBUILDING 58 - - 233.761 ON -

Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 233.76 GB 490234752 V505Z9WG
p1 OK u0 233.76 GB 490234752 L60P06BG

//server>
//server> /c0/u0 set cache=off
Setting Write Cache Policy on /c0/u0 to [off] ... Done.


Is nog aan het rebuilden, maar doet daar nu al 21u. over...
Server load stijgt hierdoor wel nog erger... :(

Powermage
19/04/07, 14:50
In een bepaald raid device wat een aantal klanten van ons hebben staan betekend een tergend trage rebuild dat er een bad blocks op de HDD zit, nu zit daar vast een andere controller achter dan in jou geval, maar misschien gewoon preventief die schijf wisselen? een 21uur rebuild is wel erg lang (zeker als hij dan nog niet klaar is)

wutr
19/04/07, 15:40
Is nog aan het rebuilden, maar doet daar nu al 21u. over...
Server load stijgt hierdoor wel nog erger... :(

Dat is niet normaal meer. Een of meerdere bad sectors / blocks is waarschijnlijk de oorzaak. Kun je de S.M.A.R.T. info van de harddisks toevallig uitlezen?

Jurian
19/04/07, 19:50
Dit wil je vast niet graag horen, maar Maxtor schijven gebruiken in een server, is eigenlijk gewoon vragen om problemen. Wij hebben naast onze hosting ook een computerwinkel en als je ziet hoe gruwelijk veel (zowel in aantal, als in percentage van alle kapotte schijven) maxtor schijven zijn teruggebracht omdat ze gewoon keihard kapot waren of steeds uit een RAID array gegooid werden of helemaal vol bad sectors zaten, zelfs al een week na aankoop, dan wil je echt nooit meer Maxtor gebruiken voor data die je niet graag kwijt wilt.

Mijn advies zou dus ook zijn, vervang die schijven 1 voor 1 met een minstens even grote schijf van een "echt" merk (Western Digital of Seagate bijvoorbeeld), en smijt die Maxtor troep in de prullenbak, nu je je data nog hebt. Na het vervangen van 1 schijf weer rebuilden en dan de andere schijf vervangen. Zolang de nieuwe schijven minstens even groot zijn als de huidige, mag dit geen enkel probleem zijn.

Zorg trouwens ook dat je RAID Edition schijven neemt als je de keuze hebt.

Succes ermee, storage die vervelend doet is altijd erg vervelend :|

SebastiaanStok
23/04/07, 11:53
Ik heb een prima ervaring met Seagate!
Echt goede HD's.

Misschien ook wel handig om te melden :)
Als je de Array hebt rebuild om dan een chkdsk uit te voeren ;)

dreamhost_nl
23/04/07, 13:33
Grappig dat je dat zegt, want Maxtor is recentelijk overgenomen door Seagate... :)

De RAID-1 array was na bijna 2 volle dagen(!) pas klaar met een volledige rebuild. Alhoewel de array stabiel lijkt te zijn, zullen de cliënten op de server toch gefaseerd worden overgezet op andere servers. De hard disks zullen daarna preventief worden verwijderd en vervangen worden door WD RE schijven.

TCM
23/04/07, 13:37
Grappig dat je dat zegt, want Maxtor is recentelijk overgenomen door Seagate... :)


Ze mogen ze wel overgenomen hebben maar nog steeds zijn er veel problemen met Maxtor schijven en servers...
Seagate gaat maxtor ook niet meer als serverschijven verkopen maar er de budgetlijn van maken..
Seagate wordt het "hoofdmerk" dan..

Spyder01
23/04/07, 14:14
Ze mogen ze wel overgenomen hebben maar nog steeds zijn er veel problemen met Maxtor schijven en servers...
Seagate gaat maxtor ook niet meer als serverschijven verkopen maar er de budgetlijn van maken..
Seagate wordt het "hoofdmerk" dan..

Sorry, maar ik heb in een aantal thuis pc's Maxtor hd's zitten en ook bij een aantal klanten. Nog niks geen problemen mee gehad. Sommigen draaien nu al 1 tot 3 jaar.

WD heb ik wel veel problemen mee gehad, met Exelstor en Seagate eigenlijk nog nooit.

SebastiaanStok
23/04/07, 14:17
Een naams verandering zecht niets :)
Die Disks worden nog steeds in de zelfde (***) fabriek gemaakt, waar ze het nog steeds op zelfde manier fabriceren.

Edit:
Ik heb slechte/goede ervaring met Maxtor.
Bij mij thuis computers problemen, en bij mijn eerste server nog nooit problemen :huh:

Is wel een verschil dat PC IDE is en de server S-ATA100

The_cobra666
23/04/07, 22:20
En dit is terug grappig:

MAXTOR suckt, maxtor daar, maxtor ginder. Bla bla bla zeg ik er tegen. In iedere pc dat ik in elkaar steek vliegen er maxtor's in en moet je eens weten, die draaien na 4 jaar nog steeds zonder enige problemen. En ja sommige draaien 5/24... ik blijf het haten als iemand zoiets kan roepen. Ik denk dat iemand met een slechte ervaring met Western Digital of Seagate exact het zelfde kan zeggen.

Ik heb hier 4 maxtor's zitten, en die draaien toch wel soms aardig wat uurtjes, 1tje daarvan is al zeker 4 jaar oud een 40 gb. Ironische is dat ik met die schijven nog geen enkele last heb gehad....

Swiftway-UK
23/04/07, 23:37
Elke fabrikant maakt wel eens een HDD type die het niet zo best doet.
Ze noemen in het onderstaand rapport geen merken, maar maken wel duidelijk dat het uiteindelijk niet zo enorm veel uitmaakt welk merk of type je gebruikt.

http://labs.google.com/papers/disk_failures.pdf

procsys
24/04/07, 09:15
Soms (in grotere diskomgevingen) kan het geval zijn dat de firmware op de disken problemen geven. Misschien kun je eens daarnaar kijken.