3ware degraded raid 5 [Archief]

blaaat

23/04/08, 22:13

Ik heb een degraded raid 5 array op 1 van mijn servers.
Nu ben ik een beetje bang om op onbekende manieren te gaan rebuilden.

Ik heb een 9650SE-4LPML met 4 HD's, 3 worden gebruikt, en 1 stond als hot-spare, maar automatisch recoveren hierop is mislukt.

c0 [Sun Apr 20 11:16:29 2008] WARNING Sector repair completed: port=3, LBA=0x7680C45
c0 [Sun Apr 20 11:17:03 2008] WARNING Sector repair completed: port=3, LBA=0x766D745
c0 [Sun Apr 20 11:17:04 2008] WARNING Sector repair completed: port=3, LBA=0x760BA05
c0 [Sun Apr 20 11:17:04 2008] WARNING Sector repair completed: port=3, LBA=0x7680C45
c0 [Sun Apr 20 11:17:04 2008] WARNING Sector repair completed: port=3, LBA=0x7687035
c0 [Sun Apr 20 11:17:04 2008] WARNING Sector repair completed: port=3, LBA=0x760BA05
c0 [Sun Apr 20 11:17:04 2008] WARNING Sector repair completed: port=3, LBA=0x766D745
c0 [Sun Apr 20 11:17:04 2008] WARNING Sector repair completed: port=3, LBA=0x7687035
c0 [Sun Apr 20 11:17:04 2008] ERROR Degraded unit: unit=0, port=3
c0 [Sun Apr 20 11:20:54 2008] INFO Rebuild started: unit=0
c0 [Sun Apr 20 11:43:15 2008] ERROR Drive timeout detected: port=3, unit=0
c0 [Sun Apr 20 11:43:30 2008] ERROR Rebuild failed: unit=0
c0 [Sun Apr 20 11:43:30 2008] ERROR Degraded unit: unit=0, port=3
c0 [Sun Apr 20 11:44:50 2008] WARNING Drive removed: port=3
c0 [Sun Apr 20 11:44:50 2008] ERROR Degraded unit: unit=0, port=3
c0 [Wed Apr 23 19:09:58 2008] INFO Drive inserted: port=1
c0 [Wed Apr 23 20:51:23 2008] INFO Drive inserted: port=1

3 disks, verspreid over 2 units.

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 DEGRADED - - 64K 148.99 OFF OFF
u1 RAID-5 INOPERABLE - - 64K 148.99 OFF OFF

Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 74.53 GB 156301488 WD-WMAP97754657
p1 OK u1 74.53 GB 156301488 WD-WMAP97958231
p2 OK u0 74.53 GB 156301488 WD-WMAP97797408
p3 UNKNOWN - 74.53 GB 156301488 WD-WMAP97771570

Unit 0 bevat 1 degraded disk.

//server15> /c0/u0 show

Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u0 RAID-5 DEGRADED - - - 64K 148.99
u0-0 DISK OK - - p2 - 74.4951
u0-1 DISK DEGRADED - - - - 74.4951
u0-2 DISK OK - - p0 - 74.4951
u0/v0 Volume - - - - - 148.99

Unit 1 bevat er 2.

//server15> /c0/u1 show

Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 RAID-5 INOPERABLE - - - 64K 148.99
u1-0 DISK DEGRADED - - - - 74.4951
u1-1 DISK OK - - p1 - 74.4951
u1-2 DISK DEGRADED - - - - 74.4951
u1/v0 Volume - - - - - 148.99

Nou probeer ik om disk3 weer als spare toe te voegen aan unit0.
maar zonder succes.

//server15> /c0 add type=spare disk=3
Creating new unit on controller /c0 ... Failed.

(0x0B:0x0020): Drive error

Pogingen om te rebuilden geven ook errors:

//server15> maint rebuild c0 u0 p1
Sending rebuild start request to /c0/u0 on 1 disk(s) [1] ... Failed.

(0x0B:0x0035): Replacement drive configuration is invalid for rebuild operation
//server15> maint rebuild c0 u0 p3
Sending rebuild start request to /c0/u0 on 1 disk(s) [3] ... Failed.

(0x0B:0x0020): Drive error

Het lijkt een beetje of de poortjes door elkaar zijn gehusseld.
Aangezien er bij de alarms word gewaarschuwd voor een kapotte disk3, maar dat was de spare.
En tijdens het rescannen zie ik nu tijdens alarms dat nieuwe disk @ port1 is. (terwijl deze als p3 UNKOWN) er staat.

Wat kan ik nu het beste doen?

dreamhost_nl

24/04/08, 13:20

Heb je de RAID-controller al 'ns vervangen door een identiek model om problemen hiermee compleet uit te sluiten?
Drie disks die simultaan "degraded" raken, is wel een beetje veel...

blaaat

24/04/08, 13:28

disks zijn dubbel degraded, in 2 units zitten dezelfde disks eigenlijk.

Dus disk 0,1,2 waren in gebruik, 3 = hot-spare (die blijkbaar ook dood is).

Unit 0: had disk 0,1,2 met disk 1 degraded, 0 & 2 OK.
Unit 1: had disk 0,1,2, met disk 0 & 2 degraded, 1 OK.

Data is ook nog bereikbaar, dus moet wel op unit 0 draaien nu.
Ik laat nu hot-spare & kapotte disk vervangen (als de nummers nog overeen komen met de echte nummers @ server). en hopen dat ie dan weer kan gaan rebuilden.

Mikey

24/04/08, 13:33

maak maar alvast een backup, verder heb ik pas ellendig zitten stoeien met de cli util van 3ware, die maakte er langzamerhand eengrotere puinhoop. Toen heb ik maar besloten om te booten en in de 3ware bios te komen en daar de boel te herstellen. Systeem herstart en rebuilden ging door op achtergrond.

blaaat

24/04/08, 14:02

hot-spare vervangen, en rebuild loopt nu. hot-spare was dus blijkbaar ookal kapot :(.
Hopelijk gaat nu alles gewoon goed.

umf

24/04/08, 14:48

hot-spare vervangen, en rebuild loopt nu. hot-spare was dus blijkbaar ookal kapot :(.
Hopelijk gaat nu alles gewoon goed.

ik vraag me toch af hoe het kan zijn dat meerdere zijn degraded

zou je dit kunnen onderzoeken ?
of het aan de controller ligt of aan omgeving schijven of dergelijke

wij hebben een hele vloot servers met 3ware maar tot op heden nog geen problemen ermee gehad als de 95xx bijvoorbeeld problemen geven gaan we ze liever uit voorzorg vervangen dan dat we dit soort problemen krijgen

GlobalServe

24/04/08, 15:05

Waarom de web utility niet installeren.
Werkt toch een stuk handiger dan die cli

host3000

24/04/08, 15:47

Rebuilden via de webutil is heel eng. Ik heb het één keer gewaagd en alle linux users waren verdwenen. De processen liepen nog wel, maar de users waren nummertjes geworden. Ik heb het toen maar afgebroken :rolleyes:

Wij doen het alleen nog maar via het bios. Dat gaat eigenlijk altijd goed.

davhog

28/04/08, 08:10

Dan is waarschijnlijk het bestand /etc/passwd corrupt/onleesbaar geworden...

Heb zelf regelmatig rebuilds vanuit de web-interface gedaan en niets vreemds meegemaakt. Wat ik wel erg vaak heb meegemaakt is een degraded-raid1 terwijl er met de schijf/kabels niets aan de hand was.

Mikey

28/04/08, 10:37

Heb zelf regelmatig rebuilds vanuit de web-interface gedaan en niets vreemds meegemaakt. Wat ik wel erg vaak heb meegemaakt is een degraded-raid1 terwijl er met de schijf/kabels niets aan de hand was.

Kijk even naar de smart history van de schijf, deze kan net errors genereren die binnen de marges blijft. Wij hebben een systeem gehad die steeds een hog had zonder aanleiding. Dit duurde een paar seconden en dan liep hij verder. Smart gaf wel errors aan, maar te weinig om de schijf uit de array te zetten.

DiedX

30/04/08, 12:01

Ik zie het probleem werkelijk waar niet. Je moet toch naar de colo, geen bier vandaag, en die HDD vervangen. In de BIOS aangeven dat hij een nieuwe heeft, terugrijden, wachten tot hij gerebuild is. Bier pakken.

Waarom zo ongelooflijk moeilijk doen met een CLI? Het is gewoon verrot!

blaaat

30/04/08, 12:03

Het is allemaal goed gerestored na het vervangen van de schijven, zonder enige problemen met de cli.

DiedX

01/05/08, 13:02

Pcies :) Daar heb je die kaart voor :)