PDA

Bekijk Volledige Versie : Server crashed?



ErikKosters
10/10/08, 10:39
Beste,

Ik heb een server van een klant van ons welke om de zoveel tijd een keer niet bereikbaar is. Ik kan zelf eigenlijk weinig intressants vinden, vanmorgen was hetzelfde en in de log kom ik weinig tegen.

Als ik via de APC de server dan reboot komt deze gewoon weer online. Heb de log van dmesg en messages even online gezet, wellicht dat jullie wat zien?

http://84.243.214.29/fout/messages
http://84.243.214.29/fout/dmesg

Alvast bedankt!

roelp
10/10/08, 10:47
Het klinkt een beetje als een slecht latje ram.
Wat staat er in je kern.log rond Oct 5 20:41:19 ?

wonko
10/10/08, 11:15
Je kan best even een console aan de machine hangen, en kijken wat erop komt op het moment dat hij onbereikbaar wordt...

westm003
10/10/08, 12:06
Ik heb dat gehad met een server uit 2006, in de netwerk PRO 10/100 kaart zat een powersave bug waardoor om de zoveel tijd de netwerk verbinding een seconde of 10 weg was...

Het is maar een idee...

Dit is wat ik succesvol heb gedaan om het te verhelpen:

82573(V/L/E) TX Unit Hang messages
Several NIC's with the 82573 chipset display “TX unit hang” messages during normal operation with the linux e1000 driver. The issue appears both with TSO enabled and disabled, and is caused by a power management function that is enabled in the EEPROM. Early releases of the chipsets to vendors had the EEPROM bit that enabled the feature. After the issue was discovered newer adapters were released with the feature disabled in the EEPROM.
You can test whether your system is affected by this bug using the script found on the Tx Unit Hang page.

If you encounter the problem in an adapter, and the chipset is an 82573-based one, you can verify that your adapter needs the fix by using ethtool:
# ethtool -e eth0
Offset Values
------ ------
0x0000 00 12 34 56 fe dc 30 0d 46 f7 f4 00 ff ff ff ff
0x0010 ff ff ff ff 6b 02 8c 10 d9 15 8c 10 86 80 de 83
^^
The value at offset 0x001e (de) has bit 0 unset. This enables the problematic powersaving feature. In this case, the EEPROM needs to read “df” at offset 0x001e.
A one-time EEPROM fix is available as a shell script. This script will verify that the adapter is applicable to the fix and if the fix is needed or not. If the fix is required, it applies the change to the EEPROM and updates the checksum. The user must reboot the system after applying the fix if changes were made to the EEPROM.
Example output of the script:
# bash fixeep-82573-dspd.sh eth0
eth0: is a "82573E Gigabit Ethernet Controller"
This fixup is applicable to your hardware
executing command: ethtool -E eth0 magic 0x109a8086 offset 0x1e value 0xdf
Change made. You *MUST* reboot your machine before changes take effect!
The script can be downloaded here (fixeep-82573-dspd.sh).

http://e1000.sourceforge.net/files/fixeep-82573-dspd.sh

systemdeveloper
10/10/08, 12:58
Beste,

Ik heb een server van een klant van ons welke om de zoveel tijd een keer niet bereikbaar is. Ik kan zelf eigenlijk weinig intressants vinden, vanmorgen was hetzelfde en in de log kom ik weinig tegen.

Als ik via de APC de server dan reboot komt deze gewoon weer online. Heb de log van dmesg en messages even online gezet, wellicht dat jullie wat zien?

http://84.243.214.29/fout/messages
http://84.243.214.29/fout/dmesg

Alvast bedankt!
Het gebeurd in de logs rond de 41ste minuut. Kan toeval zijn, maar het kan ook zijn dat op bepaalde momenten 2 crons elkaar 'bijten' waardoor er iets goed mis gaat.

ErikKosters
10/10/08, 18:43
Het klinkt een beetje als een slecht latje ram.
Wat staat er in je kern.log rond Oct 5 20:41:19 ?
kern.log word niet aangemaakt zo te zien..


Je kan best even een console aan de machine hangen, en kijken wat erop komt op het moment dat hij onbereikbaar wordt...
Het is in de laatste 3 weken 2x voorgekomen, blijf jij der achter zitten?? xD


Ik heb dat gehad met een server uit 2006, in de netwerk PRO 10/100 kaart zat een powersave bug waardoor om de zoveel tijd de netwerk verbinding een seconde of 10 weg was...
Hij blijft volledig weg, het is niet zo dat hij na enige tijd terugkomt. Het enigste dat helpt is een reboot.


Het gebeurd in de logs rond de 41ste minuut. Kan toeval zijn, maar het kan ook zijn dat op bepaalde momenten 2 crons elkaar 'bijten' waardoor er iets goed mis gaat.
Er draaien geen crons op dat tijdstip..

almar
10/10/08, 19:28
wat zegt "last"? laat die een reboot zien o.i.d.? Of misschien wel een user login..

Schrijf anders even een uptime weg in een bestand, dan weet je of hij nog werkt als ie voor jou niet meer bereikbaar is.

ErikKosters
11/10/08, 00:34
wat zegt "last"? laat die een reboot zien o.i.d.? Of misschien wel een user login..

Schrijf anders even een uptime weg in een bestand, dan weet je of hij nog werkt als ie voor jou niet meer bereikbaar is.

last output:



root pts/0 mijnhost Fri Oct 10 09:24 - 09:39 (00:14)
xml@bax- ftpd5098 217.166.23.73 Fri Oct 10 09:21 - 09:21 (00:00)
xml@bax- ftpd5096 217.166.23.73 Fri Oct 10 09:21 - 09:21 (00:00)
reboot system boot 2.6.18-8.el5 Fri Oct 10 09:16 (14:17)
xml@bax- ftpd27399 217.166.23.73 Fri Oct 10 00:41 - 00:41 (00:00)
xml@bax- ftpd27398 217.166.23.73 Fri Oct 10 00:41 - 00:41 (00:00)
xml@bax- ftpd27089 217.166.23.73 Fri Oct 10 00:36 - 00:36 (00:00)

mind
11/10/08, 01:21
Wat mij wel op valt is dat er veel meer ftp connecties geopend worden dan gesloten. Loop je daar niet tegen de een of andere limiet aan waardoor je netwerk onbereikbaar wordt.

vincentvdk
11/10/08, 11:03
Welk OS / Distro draait op die machine? Ik heb gelijkaardige problemen gehad met Ubuntu 8.04 LTS.
Opeens geen connectie meer, Syslog die herstart en op de machine zelf niets te zien.
Andere mensen hebben hier dan weer totaal geen last van.

Debian en CentOS doen het dan weer perfect op die bak...

Sorcer
11/10/08, 12:55
Beste,

Ik heb een server van een klant van ons welke om de zoveel tijd een keer niet bereikbaar is. Ik kan zelf eigenlijk weinig intressants vinden, vanmorgen was hetzelfde en in de log kom ik weinig tegen.

Als ik via de APC de server dan reboot komt deze gewoon weer online. Heb de log van dmesg en messages even online gezet, wellicht dat jullie wat zien?

http://84.243.214.29/fout/messages
http://84.243.214.29/fout/dmesg

Alvast bedankt!

Ook hier zojuist een klant welke hiervan last heeft. Bij het aansluiten van een monitor, was het login venster gewoon actief. Het lijkt erop dat de verbinding wegvalt, waardoor de server niet meer bereikbaar is. Zojuist hebben we een ander alternatief gezocht door de server per direct te vervangen door onze Quad Core DELL Servers.

Ik neem overigens even contact met je op ;)

Ramonski
11/10/08, 13:25
Misschien ligt het dan aan je switch ?

Serveo
11/10/08, 13:59
Ik zou eerst een console eraan hangen wanneer je het weer hebt. Dan zie je gelijk of het probleem hardware- of juist softwarematig is.

ErikKosters
11/10/08, 14:22
Server draait CentOS, ik zal voor de zekerheid het geheugen binnenkort even vervangen. Console eraan hangen om 'even' te gaan kijken als hij offline is is geen optie. Moet zelf namelijk uit het oosten van het land komen.