PDA

Bekijk Volledige Versie : Downtime



Kurtje
31/10/04, 14:14
Ik heb sinds kort een server met FreeBSD en CPanel. Ik ben nooit voorstander geweest van FreeBSD en heb er dus ook nauwlijks ervaring mee (werkte altijd met debian).

Nu gaat onze server snachts gewoon ineens uit, in zoverre dat de server onbereikbaar is maar wel alle poorten open staan. Het lijkt dus op een fatale crash

Waar moet ik naar kijken, welke logs? Na reboot doet de server het weer als een trein?


edit-
in messages.log staat vóór dat de machine down ging;

Oct 31 01:02:31 bt1 /kernel: pid 62164 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:02:34 bt1 /kernel: pid 62166 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:02:43 bt1 /kernel: pid 62168 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:02:45 bt1 /kernel: pid 62170 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:02:50 bt1 /kernel: pid 62172 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:04:05 bt1 /kernel: pid 62174 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:04:08 bt1 /kernel: pid 62176 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:04:13 bt1 /kernel: pid 62178 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:04:34 bt1 /kernel: pid 62180 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:04:44 bt1 /kernel: pid 62182 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:04:45 bt1 /kernel: pid 62184 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:04:56 bt1 /kernel: pid 62186 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:05:13 bt1 /kernel: pid 62229 (cpsrvd), uid 0: exited on signal 10
Oct 31 01:06:14 bt1 /kernel: pid 62265 (cpsrvd), uid 0: exited on signal 10


Signal 10 is a bus error... which usually indicates a data alignment problem.

AlfaHosting
31/10/04, 14:14
Waar staat je server dan ?

Kurtje
31/10/04, 14:15
leaseweb netwerk

WVoorschoten
31/10/04, 14:21
Werkt de server nu weer naar behoren?

Kurtje
31/10/04, 14:22
na het rebooten, ja. Maar toch is dit de 2e keer in 1 week dat hij snachts er uit vliegt.

Ik ben nu bezig met een apache update, zo gaf CPanel aan.. maar ik kan me niet voorstellen dat daar het probleem in zit.

WVoorschoten
31/10/04, 14:23
Zal er nog meer downtime komen of blijft de server nu stabiel draaien?

Kurtje
31/10/04, 14:25
Beetje rare vraag vind je niet? Ik zeg net, het is de 2e keer. Ik wil dus weten wat er aan de hand is om te achterhalen of ik actie moet ondernemen.

Ben nu apache/php aan het doen.. server load 1.50 en memory usage 85%

WVoorschoten
31/10/04, 14:26
Ok, ik wacht rustig af. Tot zover bedankt voor de snelle reactie.

Kurtje
31/10/04, 14:33
Goed updates gingen goed (mooi systeem dat cpanel update) maar nu wil ik nog graag achterhalen waarom onze server vanacht zomaar down ging.

IEMAND een oplossing? :)

Deimos
31/10/04, 14:43
Controleer je dmesg eens. En zijn er cronjobs actief rond eht tijdstip van begeven?

Kurtje
31/10/04, 14:52
ik zie alleen dingen staan over de hardware.

dmesg:
http://www.budgettrends.nl/test.txt

en wat crons rond het tijdstip;

Oct 31 01:00:00 bt1 /usr/sbin/cron[55879]: (root) CMD (newsyslog)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55880]: (root) CMD (/usr/local/cpanel/bin/dcpumon >/dev/null 2>&1)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55881]: (root) CMD (/usr/local/cpanel/whostmgr/bin/dnsqueue > /dev/null 2>&1)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55882]: (vegainte) CMD (php public_html/cron/cron_right.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55883]: (vegainte) CMD (php public_html/cron/cron_wr.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55884]: (vegainte) CMD (php public_html/cron/cron_prot.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55885]: (vegainte) CMD (php public_html/cron/cron_power.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55886]: (vegainte) CMD (php public_html/cron/cron_sc2.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55887]: (vegainte) CMD (php public_html/cron/cron_sc.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55888]: (vegainte) CMD (php public_html/cron/cron_bank.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55889]: (vegainte) CMD (php public_html/cron/cron_dl.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55890]: (vegainte) CMD (php public_html/cron/cron_attack.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55891]: (vegainte) CMD (php public_html/cron/cron_spy.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55892]: (vegainte) CMD (php public_html/cron/cron1.php)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55893]: (root) CMD (/usr/libexec/atrun)
Oct 31 01:00:00 bt1 /usr/sbin/cron[55894]: (vegainte) CMD (php public_html/cron/cron_oat.php)
Oct 31 01:01:00 bt1 /usr/sbin/cron[58202]: (root) CMD (adjkerntz -a)
Oct 31 01:05:00 bt1 /usr/sbin/cron[62192]: (root) CMD (/usr/libexec/atrun)
Oct 31 01:05:00 bt1 /usr/sbin/cron[62193]: (root) CMD (/usr/local/cpanel/bin/dcpumon >/dev/null 2>&1)
Oct 31 01:05:00 bt1 /usr/sbin/cron[62194]: (vegainte) CMD (php public_html/cron/cron_right.php)
Oct 31 01:05:00 bt1 /usr/sbin/cron[62195]: (vegainte) CMD (php public_html/cron/cron_prot.php)
Oct 31 01:05:00 bt1 /usr/sbin/cron[62196]: (vegainte) CMD (php public_html/cron/cron_power.php)

ozone
02/11/04, 23:47
FreeBSD is wel stable. Zo'n crash komt meestal door dingen die met sharing van hardware te maken hebben zoals IRQ sharing , VGA ram share (te veel), een IRQ botsing etc.



Het kan zijn dat hij crashed tijdens een van die crontab jobs in midnacht dat hij overbelast raakt en al reboot voordat hij iets kan wegschrijven.

Ik zie dat je ongeveer 469 MB gehuegen hebt, ik neem aan dat je een VGA hebt die ongeveer 32 pakt van je werk gehuegen, niet weinig als je er niet op werkt; als het inderdaad 32 is kan je het probeeren te verlagen in je BIOS, als je er toch in bent zet dan ook de LPT0 uit (printer poort) disable dus, en je floppy drive ook disablen (als je ooit een reinstall doet, kan je hem aan zetten maar noteer even)... je serial poort kan je ook uit zetten etc etc.

512 / 469mb na sharing is toch niet veel memory, als je wat swap gebruikt en load op je server hebt is het weinig. dus dit tot 1gb brengen is niet gek

Ik weet niet hoeveel ethernet kaarten je gebruikt maar het blijkt dat je een SIS en Realtek hebt, als je deze niet allebei gebruikt disable, of trek ze uit de server.

Ik raad aan om de SIS te gebruiken als ethernet controller omdat je moederboard SIS is, zo dus is de communicatie tussen de south bridge beter.

De combinatie IRQ10 share is ook dodelijk. USB en je SIS 900 Fast ethernet zitten allebei op irq10. Zet de usb af als je die niet nodig hebt, ik dink het dus niet.

Je kan het altijd nog goed doen om de secondary ide uit te doen want de 2 ide kanaalen trekken alebei een aparte IRQ. (mits je op de secondary niks hebt zitten)

ten tweede, ziet FreeBSD je vga kaart als een standard ISA generic vga, het zal wel een pci zijn maar toch, dit is dus de driver voor alle onbekende kaarten.


Als je dit gaat doen, adviseer ik wel bij de server te blijfen. Je komt eigenlijk niet in de bios zonder er bij te zijn tot hij er weer bij komt.


Al deze IRQ nemen tijd van de CPU (clock). dus elke cycle moet de cpu kijken of er nog een bucket staat. Zodra een IRQ wordt gedeelte is deze situatie nog erger en kan een OS crashen op het effect van wachten voor een hardware component dat realtime hoort te antwoorden.

Tegenwoordig zijn de OS er wel op gericht. Maar vooral de mensen bij freebsd gaan er van uit dat je minimalist approach neemt met de resource allocation . Als je dit alemaal gedaan hebt, dan komt het wel stabieler uit dan nu.

Dus die claims dat freebsd het langst blijft draaien moet je toch nog wel waar maken met wat settings en hardware specifiek tweaks, je moet je server dus kennen en voelen terwijl hij wat load neemt, dus praaten we hier over load boven de 1 (meer dan 100%) en dat processen moeten wachten. Dan zie je vanzelf de harddisk of memory/cpu reageren als je op de shell bent

Groeten
jelle van o3

Kurtje
03/11/04, 00:05
Aan de CRON lijkt het niet te liggen, vanmiddag gaf hij ook ineens het leven en besloot uit te gaan. Zonder meldingen wederom.

Ik heb hem weer herstart via APC en alles draait als een zonnetje tot nu op dit moment (23.00)

hij heeft nu een CPU load van 0.15 (aldus cpanel) en een memory usage van 87.31 procent.. daarbij ook nog een 25% swap.

Ik heb nagevraagd bij iemand die verstand heeft van FreeBSD en die vond de 87 procent memory usage normaal. Toch vind ik dat nogal veel voor een machine die (op dit moment) even niets doet.


@ozone
Het lijkt me sterk dat een paar IRQ's zoveel problemen kunnen veroorzaken toch? Ik ga er vanuit dat FreeBSD dat soort zaken zelf kan oplossen?

R. van Boxtel
03/11/04, 00:30
Mischien word je server gewoon te warm? Al lijkt het me sterk aangezien de server nog best lang blijft draaien..

wdv
03/11/04, 00:37
Houd er rekening mee dat FreeBSD eigenlijk altijd alle memory claimed. Motto van FreeBSD is "Free memory is wasted memory" ;)

FreeBSD gebruikt de memory als disk cache

sander
03/11/04, 01:20
vaak komen spontane crashes voor door unstabiele hardware.

Is dit kompleet nieuwe hardware of heeft deze al eerder dienst gedaan?

IT-worX
03/11/04, 01:29
Heb hier net hetzelfde voorgehad!
Hier crashte de server als de load te hoog werd... Zijn nog aan het onderzoeken wat de oorzaak kan zijn...

Kurtje
03/11/04, 12:26
laat het mij AUB ook weten, ben heel benieuwd.. ik laat er binnenkort ook een expert op het gebied van freeBSD naar kijken want dit kan zo niet langer.

wbakker-letsgoonline
03/11/04, 22:09
Probeer eens in whm in je settings de load te verhogen meestal staat hij op 1 zet hem eens op 5. Dit is een functie voor als de load hoger wordt dan 1 dat cpanel een aantal dingen eruit gooit of zelfs je server afsluit. Tenminste dit hielp hier :)

Kurtje
03/11/04, 22:17
ik neem aan dat je bedoelt;

The load average that will cause the server status to appear red (leave blank for default):

Staat nu op 3 (werd me geadviseerd)

PeterT
03/11/04, 22:29
Lijkt me niet wat hij bedoelt - dat is alleen de het 'status-lampje'.

Ik weet trouwens ook niet welke setting hij precies bedoelt.. voor zover ik weet is er niet zo'n functie in WHM?
Wij gebruiken hier PRM voor.

Kurtje
03/11/04, 22:40
de server ging dus nu net weer plat, ik ben wéér ALLE logs doorgegaan maar kan echt niets vinden. Het is alsof de hele server gewoon in 1 keer het leven geeft en geen enkel log meer er uit persen kan..

Jeroen.it
03/11/04, 22:45
De server werkt inmiddels weer?

XS-24
03/11/04, 22:46
Ljikt me wel he anders kon hij geen logs gaan doorzoeken...

Heb hier 1 keer overdag last van gehad, later niet weer.

Kurtje
03/11/04, 22:53
ja hij ging down, meteen op reboot gedrukt en dan gaat alles perfect en loopt alles als een trein.. maar het lijkt erop alsof hij gewoon ineens 'hangt'

Als niemand hier iets weet dan laat ik er wel iemand naar kijken, dit kan zo echt niet langer..

--edit
nog even wat extra, na oplevering is de kernel opnieuw gecompiled door iemand.. er zat namelijk geen quota support in de opgeleverde versie. Kan het daarmee te maken hebben?

PeterT
03/11/04, 23:00
Heb je al een forced update geprobeerd?

/scripts/upcp --force

Kurtje
03/11/04, 23:03
Wat doet dat precies, voordat ik iets intik wat niet goed is?


--edit, naja maar gedaan
geen updates, maar nog bezig

PeterT
03/11/04, 23:26
Forced update.
Het update niet alleen cPanel maar ook een aantal (van cPanel's) back-end scripts.
Lost soms de vreemde problemen die cPanel wel eens heeft op..

Kurtje
03/11/04, 23:34
woej, heb ineens nieuwe cpanel ;)

WHM 9.9.8 cPanel 9.9.8-R12
FreeBSD 4.10-RELEASE-p3 i386 - WHM X v3.1.0

had R8 :)

Nou, bedankt tot zover.. als het nu nog niet opgelost is dan overweeg ik langs het DC te lopen en hem flink wakker te schoppen als die weer slaapt .. ben het echt zat ;)

Iemand zei nog, geheugen kapot. Is het een optie of is het onzin?

PeterT
03/11/04, 23:42
Zou eventueel nog kunnen; maar wacht dit eerst eens af :)

Succes ermee

Kurtje
03/11/04, 23:42
Heel erg bedankt voor je hulp! :)

IT-worX
03/11/04, 23:45
Bij mij dachten ze idd ook eerst het geheugen...

lifeforms
03/11/04, 23:52
Dit moet haast wel hardware zijn. Check geheugen en de bankjes, of de CPU er goed inzit, koeling van de CPU, alle connectoren even erin en eruit...

Bij extreem hoge load willen bepaalde FreeBSD-versies instabiel zijn, maar dit heb ik nog nooit meegemaakt...

Dillard
03/11/04, 23:56
Mocht het niet opgelost zijn, zou je eens moeten kijken naar je koeling. Ik heb ook eens een FreeBSD machine gehad met een defect koeling, die dezelfde symtomen vertoonde als die je hier beschrijft. We zochten in eerste instantie ook in de software, maar uiteindelijk bleek het veroorzaakt te worden door een defecte koeling (en dus een server die te warm werd).

Ik heb zomaar het gevoel dat ................

Let us know..

Kurtje
04/11/04, 00:24
prachtig zo'n update, nu werkt de DNS server helemaal niet meer.


named[95636]: can't open '/etc/named.conf'

PeterT
04/11/04, 00:29
kijk even wie de owner is; met root ge-edit toevallig ?

Kurtje
04/11/04, 00:31
pff, ja prachtig hij stond op chmod onleesbaar door de update geloof ik, hehe my bad.

Btw, thnx.. het lijkt wel alsof het systeem een stuk stabieler is. CPanel reageert in elk geval stukken beter! :W:

Load: 0.05 - 0.08
Memory: 55% - 60%

vergeleken met vorige week bijv, load 1.0-1.2 en memory minimaal 80%

PeterT
04/11/04, 01:21
Graag gedaan, ik stuur het factuur wel! ;)

maxnet
04/11/04, 01:32
Origineel geplaatst door Kurtje

Iemand zei nog, geheugen kapot. Is het een optie of is het onzin?

Dat is zeker een optie.
Zowel bij één van mijn desktops als laptop last van gehad -- na een paar uur zaten de systemen volledig vast.

Sindsdien koop ik merkgeheugen, en laat na elke nieuwe module het geheel een avondje memtest86+ (http://www.memtest.org/) draaien.

Kurtje
04/11/04, 11:26
ga ik ook proberen, loving webhostingtalk ;)

ozone
04/11/04, 20:19
De irq's is gewoon een probleem, aangezien je ook niet zo'n sterke computer hebt (celeron) sigh..

FreeBSD zit gewoon met de langzaamere bus en IRQ's te pollen met een langzaamere bus/cpu is gewoon slecht. Zeker shared.

Het duur 10 minuten en je hebt toch die rand aparatuur niet nodig.