Amazon EC2 / Directadmin probleem [Archief]

Bekijk Volledige Versie : Amazon EC2 / Directadmin probleem

yourivdlans

27/05/11, 11:02

Beste WHT,

Begin 2008 zijn wij begonnen met een server bij Amazon via EC2, hiervoor had ik een ubuntu hardy (8.04 LTS) server ingericht met directadmin, deze heeft het eigenlijk heel lang goed gedaan. Met deze server heb best veel problemen gehad maar heb het vaak weten op te lossen.
Echter iets meer als een maand geleden crashte deze server en kon ik hem niet meer online krijgen. Ook ben ik er niet achter kunnen komen wat dit nou heeft veroorzaakt.
Daarna heb ik een snapshot (kopie) gemaakt van de huidige schijf en daarmee heb ik een nieuwe instantie (vps) gestart om het probleem tijdelijk op te lossen.

Vervolgens ben ik zo snel mogelijk aan de slag gegaan om een nieuwe server te bouwen, dit keer met ubuntu 10.04 (Lucid), ook weer met directadmin en een aantal extra applicaties (configserver, Munin, xCache).
Dit heeft nu iets meer als een maand perfect gedraaid, echter liet hij het ons gister afweten.
Rond half 8 viel de server ineens weg, en kon ik hem op geen enkele manier meer bereiken. Precies dezelfde symptomen als onze vorige server, ik heb nog geprobeerd hem te restarten maar dat mocht niet baten, daarna wilde ik hem stoppen om de root volume aan een andere instance te kunnen attachen om het een en ander te controleren. Helaas bleef hij in deze staat hangen en ben ik maar weer begonnen om hetzelfde te doen als met de oude server (kopie maken en nieuwe instantie starten).

Ook heb ik al contact opgenomen met directadmin support, zei gooien het op vol geheugen / swap of overhitting. Daarnaast wordt me geadviseerd om /var/log/messages te controleren, maar hier wordt ik ook niet wijzer van.

Uiteraard ben ik weer op zoek gegaan naar de oorzaak, maar ik ben bang dat ik helaas niet competent genoeg ben ik dit te kunnen achterhalen. Vandaar dat ik op zoek ben naar iemand die me hier bij kan helpen.

Bij voorbaat dank.

p.s. bijgevoegd nog een paar munin graphs die ik opmerkelijk vond.

http://itflows.nl/public/graphs/memory-day.png

http://itflows.nl/public/graphs/memory-week.png

http://itflows.nl/public/graphs/fw_forwarded_local-day.png

http://itflows.nl/public/graphs/open_inodes-day.png

http://itflows.nl/public/graphs/open_inodes-week.png

rimote

27/05/11, 11:45

Ben geen kenner op het gebied van EC2, maar dit lijkt erg op een probleem bij Amazon. Het vreemde vind ik dat als je een nieuwe instance aanmaakt het wel werkt maar rebooten niet. Dus dat wijst op een probleem zoals DA support heeft beschreven.

Heb je Amazon support al gevraagd om er naar te kijken? Voor die prijs mag je toch een snelle service verwachten hoop ik.

yourivdlans

27/05/11, 11:54

Ja dat lijkt mij op zich ook, zeker aangezien hetzelfde probleem zich voor doet met een totaal nieuwe server.
Alleen heb ik con-collega's die ook gebruik maken van deze dienst en hebben nog nooit problemen gehad, maar gebruiken dan ook geen directadmin.

Het vervelende is dat je wel op hun forum je vragen kan stellen, maar daar is de hulp zo minimaal dat ik dat niet meer de moeite vindt. Mocht je direct support willen moet je daar weer extra voor betalen, en die tarieven vind ik voor de grootte van mijn enkele server het gewoon niet waard.

rimote

27/05/11, 12:00

Heb je de mogelijkheid om de logfiles van de gecrashte unit te bekijken?

Ik zou tevens echt het probleem bij Amazon ook neerleggen, ook al is het ontzettend karig de wijze van support. Zij hebben bepaald inzicht in de hardwarenode die misschien de zaak kan verhelderen. Zo te zien is je geheugengebruik gewoon OK.

Heb je al gezocht op Googel naar jou probleem icm met Xen (daar draait EC2 op als ik me niet vergis). Misschien krijg je meer zoekresultaten dan op EC2.

yourivdlans

27/05/11, 12:05

Ja ik heb volledige ssh toegang.

Dat klopt ja, het zou een stuk makkelijker zijn als we daar wat meer inzicht in zouden krijgen.

Ik wist niet dat ze Xen gebruiken voor hun virtualisatie, zal er op gaan zoeken, alleen is het wel lastig omdat ik nog niet precies weet wat het probleem is.

rimote

27/05/11, 12:09

je kan als je wil een archief (bijv. tar) maken van de /var/log (eventueel /var/logs). Daar staan geen wachtwoorden in dus het is veilig (alsnog niet op straat gooien natuurlijk want er valt wel uit af te leiden welke programmas je draait en welke domeinnamen er op je server staan).

Je kan dan een link naar mij PMen zodat ik het kan downloaden (eventueel .htaccess beveiligde map met wachtwoord maken). Dan kan ik er eens naar kijken. Wellicht dat er iets nuttigs in staat.

rimote

27/05/11, 13:30

Draait de server (tijdelijk) weer goed?

Zoals besproken is het handig een geupdate versie te gebruiken van een EC2 image om bugs op te lossen, maar dat neemt niet weg dat het feit dat hij niet meer opstart onbegrijpelijk is.

Het geheugengebruik is op dit moment ook goed. Ondanks de bugjes en kleine dingen zou het moeten draaien.

Ik raad je aan echt bij Amazon te rade te gaan. Wellicht in combinatie met meer geheugen voor de piekmomenten. Maar eigenlijk zou 2GB meer dan voldoende moeten zijn.

Als dat niets oplevert toch maar een upgrade doen. Dat wordt toch eens tijd:

- klanten informeren dat je down gaat
- Firewall dicht gooien (behalve jouw IP)
- backups maken (admin-levelbackups)
- nieuwe server aanmaken met nieuwe EC2 image (persoonlijk raad ik Debian aan, Ubuntu is hierop gebaseerd)
- DA installeren en backups restoren

Mocht het probleem zich alsnog voordoen weer bij Amazon te rade gaan. Zij zijn je host en je betaald goed geld dus moeten ze je op zn minst bijstaan met enige support. Als zij vervolgens niet kunnen antwoorden, pas verder kijken.

Hopelijk lukt het allemaal. Keep us posted!

rimote

27/05/11, 13:40

o ja, misschien dat iemand anders er ook even naar kan kijken. Iemand met ervaring met Xen/EC2 bijv. Wellicht ziet hij/zij iets dat ik over het hoofd heb gezien.

yourivdlans

27/05/11, 14:33

Ja, op dit moment doet hij het gewoon weer prima.

Als er niks anders op zit zal ik daar naar moeten gaan kijken, en het blijft erg raar dat hij na een reboot niks meer doet inderdaad.
Ik zal proberen contact met ze op te nemen, maar zo ver ik weet gaat dat alleen via het forum.

Mocht ik meer geheugen willen, moet ik gelijk een high instance aanschaffen en op dit moment hebben we een reserved instance (gereserveerde ruimte) zodat de kosten per uur lager zijn, deze koop je ook per jaar.

Alleen zit ik er wel tegen op om weer een nieuwe server te bouwen, een maand geleden heb ik dit dus ook gedaan, en kost me gewoon een goeie week (naast m'n andere werkzaamheden) om dit voor mijn gevoel helemaal netjes op te zetten.

Gelukkig kan ik wel zoveel instances starten als ik wil, dus ik kan gewoon beginnen aan een debian install en zodra deze klaar is en alle backups zijn overgezet het ip overzetten.

Voor nu ga ik denk ik iemand inschakelen om er even naar te laten kijken want wellicht is dit zaakje nog te redden.

Heel erg bedankt in elk geval! En ik zal laten weten hoe het verder loopt.

yourivdlans

30/05/11, 09:27

Van directadmin support heb ik weer een reactie gehad.

In the messages.txt:

May 25 00:10:52 server kernel: [3544933.781004] swapper: page allocation failure. order:4, mode:0x20

"page" is the swap ram.. so that's bad. Can't write to swap memory... likely the same as running out of ram.
That error repeats several times.
You'd need to look into the swap memory space and why it's not able to be written to.

En als ik kijk naar de maandelijkse stats, dan zie ik het swap geheugen ook vol lopen tot aan de crash.

http://itflows.nl/public/graphs/memory-week.png

Iemand een idee wat ik hier aan kan doen?

rimote

30/05/11, 10:20

Zoals ik uit de bugreports heb gelezen kan het komen doordat de image die je hebt niet goed samenwerkt met de Xen hypervisor. Het verhaal was iets van: de hypervisor kent te langzaam ruimte toe waardoor je swap allocation problemen krijgt.

Omdat het met de image/hypervisor te maken heeft, zou ik via het forum amazon vragen om er naar te kijken. Wellicht dat zij een tip voor je hebben of het probleem vanuit de hypervisor kunnen oplossen. Misschien is een kernel-upgrade voldoende.

http://www.vincestross.com/2009/04/upgrade-an-ec2-instance/

Uit de graph kan ik niets zien. Wat bedoel je? Enige wat ik zie is dat de swap na de reboot (de witte verticale lijn) helemaal weg is (of heel klein).

yourivdlans

30/05/11, 11:24

Het volgende heb ik op het Amazon forum gevonden (https://forums.aws.amazon.com/message.jspa?messageID=170773).

The error messages seen below indicate failure to allocate a 32K chunk of memory (order 5 allocation = 2^5K), the valid function calls in the stack trace lead to the network stack. The problem mainly is that the virtual network devices allocate and free buffers quicker than the vm subsystem can keep up with. Increasing the amount of memory tried to keep free for allocations (/proc/sys/vm/min_free_kbytes) avoids the messages.

Schijnbaar is het niet zo zeer een bug, maar meer een indicatie dat er een bepaalde setting getuned moet worden.

$ sysctl vm.min_free_kbytes
vm.min_free_kbytes = 3416

Vervolgens heb ik gelezen dat deze setting 5% - 6% van je totale ram geheugen moet zijn.

$ sudo sysctl -w vm.min_free_kbytes=106954
vm.min_free_kbytes = 106954

Ik weet niet of dit mijn problemen gaat oplossen, maar het zou in ieder geval de errors in /var/log/messages moeten oplossen.

rimote

30/05/11, 11:32

Goed om te horen dat je iets op het spoor bent gekomen! Klinkt ook wel plausibel. Mocht er weer een crash komen, zou je het dan willen laten weten? Horen we een tijd niets, is dat blijkbaar de oplossing en heeft wellicht iemand anders er ook wat aan.

Groeten,

Rimote

yourivdlans

30/05/11, 11:35

Voordat ik deze server in gebruik heb genomen had ik ook een kernel update gedaan.
$ uname -a
Linux server.... 2.6.32-314-ec2 #27-Ubuntu SMP Wed Mar 2 22:54:48 UTC 2011 i686 GNU/Linux

Het probleem wat jij beschrijft over dat de hypervisor te langzaam ruimte toekent is denk ik hetzelfde als wat ik heb gevonden. Ik vraag me alleen af of de setting die ik heb aangepast het probleem zal oplossen.
Ik zal dus even moeten kijken of er nog een andere kernel upgrade is te vinden, want zomaar een kernel upgrade doen op ec2 was niet zo heel gemakkelijk.

Ja ik ben ook blij dat ik eindelijk wat heb kunnen vinden, ik zal mijn bevindingen hier hoe dan ook posten!

rimote

30/05/11, 11:40

Ik weet niet of je logwatch hebt, dan kan je de logfiles dagelijks bekijken. Anders kan je ook dagelijks de logfile mailen waarin de fout zich voordoet. Info:

http://ubuntuforums.org/showthread.php?t=608766

Wellicht kan je er een grep bij doen zodat je alleen relevante info krijgt toegestuurd:

cat <some logfile> | grep foutmelding | mailx -s "some log file" <your email address>

yourivdlans

30/05/11, 11:43

Nee heb ik volgens mij niet, klinkt goed.

Bedankt voor de tip!

yourivdlans

27/07/11, 11:58

Om nog even terug te komen op mijn probleem, sinds ik de kernel instelling heb aangepast geen problemen meer gehad.
Nogmaals bedankt voor alle hulp!