PDA

Bekijk Volledige Versie : 3ware DEGRADED ?



Stefan Mensink
14/06/06, 17:40
Hoi,

Ik zat zo eens wat te proberen met tw_cli op een server. Nu zegt tw_cli dus:

//server3> info c4

Unit UnitType Status %Cmpl Stripe Size(GB) Cache AVerify IgnECC
------------------------------------------------------------------------------
u0 RAID-1 DEGRADED - - 186.254 ON OFF OFF

Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 186.31 GB 390721968 WD-WCAMT1105308
p1 DEGRADED u0 186.31 GB 390721968 WD-WCAMT1034002
p2 NOT-PRESENT - - - -
p3 NOT-PRESENT - - - -

Nu behoeft het verder geen uitleg dat DEGRADED geen beste zaak is. Mijn vraag is wel:

- Hoe kan ik zien waarom die disk uit de array geschopt is?
- Kan ik een mediacheck laten doen op die disk, en 'm later eventueel weer terug in de array zetten?
- Hoe ont-degrade ik zo'n disk?
- Als ik -indien nodig- met een nieuwe disk naar het DC ga, hoe meld ik die dan weer aan bij de array?

Oja, de controller is een 9500S-4LP. SATA dus.

Alvast bedankt!

PS: Ik snap dat ik docs moet lezen, maar de docs zijn niet erg duidelijk over de procedure die je moet volgen wanneer een disk degradeert.

GlobalServe
14/06/06, 17:58
Installeer de 3dm tool, daar kan je alles beter opvolgen...
Kan je alles makkelijker zien ook.

Stefan Mensink
14/06/06, 18:56
Na een paar pagina's door 3dm te hebben geklikt, ging dus de hele machine over de zeik :-(

Die laat ik dus maar even uitstaan.

Mikey
14/06/06, 19:06
Na een paar pagina's door 3dm te hebben geklikt, ging dus de hele machine over de zeik :-(

Die laat ik dus maar even uitstaan.

Als je aangegeven hebt dat je array weer mag rebuilden kan je systeem inderdaad gaan nekken als je dat vanuit die tool doet, reboot is vaak de oplossing, rebuilden gaat vanzelf en als je de tool goed installed hebt krijg je een mail als hij klaar is + status.

Stefan Mensink
14/06/06, 19:11
Als je aangegeven hebt dat je array weer mag rebuilden kan je systeem inderdaad gaan nekken als je dat vanuit die tool doet, reboot is vaak de oplossing, rebuilden gaat vanzelf en als je de tool goed installed hebt krijg je een mail als hij klaar is + status.Ik heb helemaal niets aan het rebuilden gezet hoor, dat zou ik nooit overdag doen met een productieserver. Toch ging om de een of andere reden wel alles plat. Ik vermoed een geheugenslokop-actie.

screen knalde er zelfs uit met: "Suddenly the Dungeon collapses!! - You die..."

Mikey
14/06/06, 19:16
screen knalde er zelfs uit met: "Suddenly the Dungeon collapses!! - You die..."



#if defined(DEBUG) || !defined(DO_NOT_POLL_MASTER)
if (AttacherPanic)
{
fcntl(0, F_SETFL, 0);
SetTTY(0, &attach_Mode);
printf("\nSuddenly the Dungeon collapses!! - You die...\n");
eexit(1);
}
#endif

Stefan Mensink
14/06/06, 21:40
Ergens is-ie wel komisch, Mikey :-)

Gezien het schijnbaar komt doordat de master screen 'weg' is, kan het zijn doordat de harddisk niet meer benaderbaar was. Een PHP-script kwam ook met de melding "Can't create/write to file '/tmp/#sql_5e7c_0.MYI' (Errcode: 30)", wat wijst op het niet kunnen schrijven in /tmp/ (voor MySQL)....

Afijn, nu weet ik nog niet precies hoe ik die boel hoor te rebuilden vanaf de command-line, want die 3dm vertrouw ik niet zo meer.

MikeN
14/06/06, 23:09
Trek gewoon de kapotte HD eruit en stop er een nieuwe in? (eenmaal degraded schijven zou ik iig niet meer vertrouwen)

Stefan Mensink
14/06/06, 23:46
Tja MikeN, die raidcontroller heeft er in het begin na het verplaatsen van de server een keertje wat los in gezeten. Toen wel alles opnieuw aangedrukt, maar misschien heeft er toen ook heel even een SATA-kabel losgezeten. Het kan dus best zijn dat die schijf nog helemaal prima is, en bovendien is die nog geen halfjaar oud.

Trouwens, eerder heb ik nagelaten te kijken of de disks allemaal nog in de array stonden. Tjah....


/c4/u1 start rebuild disk=p1

Zou dat 'm moeten doen?

Mikey
14/06/06, 23:50
Ik snap je wantrouwen in de 3dm tool, ik heb hetzelfde gvoel dat icm met een asus bordje, supermicro geen probleem, die asus hikt ook gigantisch als ik conbtrolle uit laat voeren. Maar na een tijdje is het probleem weg.

Apoc
15/06/06, 01:23
Het kan dus best zijn dat die schijf nog helemaal prima is, en bovendien is die nog geen halfjaar oud.

Ik zou er in ieder geval niet vanuit gaan. Ik 99% van de gevallen is de schijf daadwerkelijk kapot (en wij gebruiken zo'n 500 3ware 9500S controllers).



/c4/u1 start rebuild disk=p1

Zou dat 'm moeten doen?

Nee, je hebt de tw_cli tool nodig, kan je van 3ware.com downloaden. Daarna is het een kwestie van:


./tw_cli maint rebuild c0 u0 p1

Indien het een produktie server is, dan kun je het beste de rebuild rate op 5 zetten:


./tw_cli set rebuild c0 5

Mocht het geen produktie server zijn en kan je dus meer I/O missen dan kan je het sneller laten doen door de 5 te veranderen in iets lagers (laagste is 1). Lager betekent in dit geval snellere rebuild, meer I/O gebruik voor rebuild dus.

Succes!

Edit: in mijn voorbeeld zou je c0 en u0 moeten vervangen door de juiste waarden, dit zijn slechts de waarden die bij een standaard server met 1 controller en 1 array van toepassing zijn.