BUG: soft lockup detected on CPU#0! [Archief]

Mathew

16/01/10, 11:23

Sinds 1 dag krijg ik volgende errors in de uitvoer van
dmesg te zien.

BUG: soft lockup detected on CPU#0!

Call Trace:
<IRQ> [<ffffffff802a360e>] softlockup_tick+0xdb/0xed
[<ffffffff8028783c>] update_process_times+0x42/0x68
[<ffffffff8026c30d>] smp_local_timer_interrupt+0x23/0x47
[<ffffffff8026ca01>] smp_apic_timer_interrupt+0x41/0x47
[<ffffffff8025878a>] apic_timer_interrupt+0x66/0x6c
[<ffffffff880188ab>] :ide_core:ide_outsw+0x0/0x9
[<ffffffff8025df59>] _spin_unlock_irqrestore+0x8/0x9
[<ffffffff880180db>] :ide_core:ide_intr+0x1d1/0x1df
[<ffffffff8020f106>] handle_IRQ_event+0x29/0x58
[<ffffffff802a394d>] __do_IRQ+0xa4/0x105
[<ffffffff80210371>] __do_softirq+0x5e/0xd5
[<ffffffff802132de>] sync_buffer+0x0/0x3f
[<ffffffff80263749>] do_IRQ+0x65/0x73
[<ffffffff80258111>] ret_from_intr+0x0/0xa
<EOI> [<ffffffff880188ab>] :ide_core:ide_outsw+0x0/0x9
[<ffffffff80256075>] generic_unplug_device+0x27/0x28
[<ffffffff80213314>] sync_buffer+0x36/0x3f
[<ffffffff8025ce2d>] __wait_on_bit+0x40/0x6f
[<ffffffff802132de>] sync_buffer+0x0/0x3f
[<ffffffff8025cec8>] out_of_line_wait_on_bit+0x6c/0x78
[<ffffffff8028fa14>] wake_bit_function+0x0/0x23
[<ffffffff88090c46>] :jbd:journal_commit_transaction+0x910/0x1072
[<ffffffff8023b73d>] lock_timer_base+0x1b/0x3c
[<ffffffff880943fa>] :jbd:kjournald+0xc1/0x213
[<ffffffff8028f9e6>] autoremove_wake_function+0x0/0x2e
[<ffffffff8028f823>] keventd_create_kthread+0x0/0x61
[<ffffffff88094339>] :jbd:kjournald+0x0/0x213
[<ffffffff8028f823>] keventd_create_kthread+0x0/0x61
[<ffffffff8023057c>] kthread+0xd4/0x107
[<ffffffff80258aa0>] child_rip+0xa/0x12
[<ffffffff8028f823>] keventd_create_kthread+0x0/0x61
[<ffffffff802304a8>] kthread+0x0/0x107
[<ffffffff80258a96>] child_rip+0x0/0x12

Is er iemand die weet waar ik de oorzaak van dit probleem moet gaan zoeken?

de CPU zelf doet ook rare dingen. Als ik als root, top uitvoer, zie ik maximum een process 2% van het verbruik halen. Terwijl de cpu af en toe piekt tot 40% (en dat er geen enkel process ervoor verantwoordelijk is?)

Oja, het gaat verder om een VPS met volgende CPU:

processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 26
model name : Intel(R) Xeon(R) CPU E5520 @ 2.27GHz
stepping : 5
cpu MHz : 2266.782
cache size : 8192 KB
fpu : yes
fpu_exception : yes
cpuid level : 4
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat clflush mmx fxsr sse sse2 syscall lm constant_tsc up pni cx16 lahf_lm
bogomips : 4542.47
clflush size : 64
cache_alignment : 64
address sizes : 40 bits physical, 48 bits virtual
power management:

En deze kernel op Debian Etch (4.0) : 2.6.18-6-amd64 #1 SMP

wonko

16/01/10, 12:15

geef even de lijst van geladen modules (lsmod)

Mathew

16/01/10, 13:41

Module Size Used by
xt_tcpudp 7936 30
xt_state 6912 2
ipt_LOG 11264 0
ip_conntrack_ftp 13136 0
iptable_mangle 7552 0
iptable_nat 12292 0
ip_nat 24492 1 iptable_nat
ip_conntrack 63140 4 xt_state,ip_conntrack_ftp,iptable_nat,ip_nat
nfnetlink 11976 2 ip_nat,ip_conntrack
iptable_filter 7808 1
ip_tables 25576 3 iptable_mangle,iptable_nat,iptable_filter
x_tables 22024 5 xt_tcpudp,xt_state,ipt_LOG,iptable_nat,ip_tables
ipv6 286048 38
dm_snapshot 20664 0
dm_mirror 25216 0
dm_mod 62800 2 dm_snapshot,dm_mirror
tsdev 13056 0
i2c_piix4 14348 0
psmouse 44432 0
i2c_core 27776 1 i2c_piix4
joydev 15360 0
serio_raw 12036 0
parport_pc 41640 0
parport 44684 1 parport_pc
evdev 15360 0
floppy 67112 0
pcspkr 7808 0
usbhid 45088 0
ext3 138512 1
jbd 65392 1 ext3
mbcache 14216 1 ext3
8139too 33408 0
ide_cd 45088 0
cdrom 40488 1 ide_cd
ide_disk 20608 3
8139cp 29440 0
mii 10368 2 8139too,8139cp
uhci_hcd 28696 0
piix 15492 0 [permanent]
generic 10500 0 [permanent]
ide_core 147584 4 ide_cd,ide_disk,piix,generic
thermal 20240 0
processor 38248 1 thermal
fan 9864 0

Mathew

19/01/10, 17:18

niemand? google bied me echt geen hulp...

phreak

20/01/10, 09:26

Is een kernel bug, deze melding had ik gisteren ook, rebooten en van een oudere kernel booten did the trick.

Even toevoeging: http://groups.google.com/group/linux.kernel/browse_thread/thread/450966ffa3043609/59e6a2350b7690bf?lnk=st&q=kernel:+ide:+failed+opcode+was:+0xea%22+BUG:+sof t+lockup+detected+on+CPU%230!%22&rnum=1&hl=en#59e6a2350b7690bf

davhog

20/01/10, 11:19

Als ik de discussie (in linux.kernel) goed begrijp is dit eigenlijk een 'false positive'. Ofwel de melding kan niet zo veel kwaad.

Wij krijgen de melding ook zeer regelmatig in XEN guests (ook debian).

phreak

20/01/10, 17:13

Als ik de discussie (in linux.kernel) goed begrijp is dit eigenlijk een 'false positive'. Ofwel de melding kan niet zo veel kwaad.

Wij krijgen de melding ook zeer regelmatig in XEN guests (ook debian).

Inderdaad, maar die 'false positive' zorgt er wel voor dat je box niet doorboot.

Mikey

20/01/10, 17:47

Probleem is vaak ook te verhelpen door de tweede cpu te disablen. Zolang je weinig load hebt kan dit zonder problemen aangezien de scheduler uiteindelijk zorgt voor een kleine overhead.

MMaI

20/01/10, 22:15

in het verlengde van Mikey's verhaal, (als het mogelijk is natuurlijk) probeer dan eens HyperThreading te disabelen.

Op google verschillende mensen te vinden die problemen hadden met HT onder specifieke kernels, welke na het disabelen van HT verdwenen. Hoe de performance drop is zonder HT weet ik niet.

Mathew

26/01/10, 14:16

Ok. Bedankt, ik zal 'm bij een volgende belangrijke reboot wel aanpassen dan.
Voorlopig blijkbaar toch niet zo heel veel last van.

Bedankt voor de reacties.