Helaas vanmorgen weer een core router plat bij Serverius (dc1 Dronten)
Meer informatie:
http://noc.serverius.net/?p=80
Zal het bericht later aanvullen
Sent from my iPhone using webhostingtalk mobile app
Helaas vanmorgen weer een core router plat bij Serverius (dc1 Dronten)
Meer informatie:
http://noc.serverius.net/?p=80
Zal het bericht later aanvullen
Sent from my iPhone using webhostingtalk mobile app
Vorige keer:
Dear network user,
Reason For Outage report (RFO)
Outage window start: 11-March-15 22:00:00 UTC
Outage window end: 12-March-15 00:15:00 UTC
1. SITUATION:
- Reported by: Serverius NOC
- Location: Serverius General network router 1
- Short description: Partial packet loss within main router 1
------------------------------------------------------------
2. INCIDENT:
Main router 1 dropped random data packages from certain routes (mainly AMS-IX) from the internet to the Serverius network.
------------------------------------------------------------
3. CAUSE:
One broken memory module from a Cisco sub-engine.
------------------------------------------------------------
4. SOLUTION:
We swapped the sub-engine with a another one.
------------------------------------------------------------
5. PREVENTION:
At the start of the problem our main engineers took action within seconds and started investigation + all spare hardware was on-site. Therefore we could not do anything more.
------------------------------------------------------------
Sent from my iPhone using webhostingtalk mobile app
Dingen gaan nou eenmaal kapot, daar is weinig tegen te doen. Wat ik alleen niet snap is dat de redundancy steeds niet goed lijkt te werken.
Ik hoop dat ze dit keer met een fatsoenlijke verklaring komen.
Helemaal mee eens. Lullig is alleen dat het nu 2x in korte tijd gebeurd.
Je mist vaak de transparantie in zulke situaties.
Voor nu is alles weer online.
Sent from my iPhone using webhostingtalk mobile app
Redundantie staat en valt met het detecteren wanneer er overgeschakeld moet worden.
Bijna alle soorten automatische redundantie/failover dekken alleen de 'simpele' gevallen, namelijk de primary is totaal en volkomen dood.
Random packet loss op _sommige_ prefixen zul je daarmee niet afvangen. Wat in dit geval in theorie wel gekund had, als er een redundante router is (of tweede link op andere linecard), is dat je handmatig omschakelt/defecte poort dicht zet als je eenmaal de conclusie getrokken hebt dat er iets defect is op dat apparaat.
Bij dit type probleem is dat ook niet het eerste wat je verwacht, moet ik zeggen. Het is wat makkelijker als alles op een bepaalde poort packet loss heeft, maar als het ook nog eens daar een subset uit betreft is het wel lastig zoeken.
Maar goed, inloggen en handmatig schakelen is nog wel wat sneller dan het een fieldengineer sturen om een kaart te swappen.
Probleem is dat zelfs wanneer men een handmatige switch deed of kon doen, er nog steeds bepaalde verbindingen uit lagen.
Anyway er is inmiddels een update op de noc pagina dst het om een Cisco IOS bug zou gaan die met een software update is opgelost...