“Shit, storing”

auteursafbeelding
Joris
25 februari 2014 Clock 3 min
Image placeholder

Maandag, 15:52 uur

Mark Vletter vraagt of ik wil testen of mijn.voys.nl bij mij ook zo traag is. Zijn blik verraadt de ernst en dus houd ik op Anniek te pesten en vernieuw ik in mijn browser mijn.voys.nl. Traag laadt er een “502 – bad gateway” pagina.

Shit.

“Storingsprotocol” schreeuwt Mark ons na, terwijl hij naar het developmentteam rent, of beter gezegd; vliegt. We kijken elkaar verward aan. In de bijna twee jaar dat ik hier nu werk is dit denk ik de vijfde storing. Drie daarvan waren helaas in de afgelopen 14 dagen. 10 februari raakte onze coreserver overbelast, afgelopen donderdag had onze internetleverancier last van een DDoS aanval en nu dit weer.

Database overbelast

16:01 uur

Gelukkig kent iedereen binnen ons team inmiddels zijn of haar taak. Samen met Anniek zorg ik voor updates op onze website en via Twitter. Via Whatsapp krijgen we, in wat op steno lijkt, updates vanuit het developmentteam. Anniek en ik zoeken samen naar een vertaling om dit duidelijk te communiceren naar onze klanten. Gelukkig is het probleem snel gevonden; de database is volgelopen en er kunnen geen nieuwe gesprekken worden opgezet. Of zoals één van de jongens van development het in een eerste reactie naar ons appt: “DB nivo, hoge load, kan nog niets zien, bellen failed”.

Op Voys.nl maken we een storingsrapport. We zien ondertussen de bezoekersaantallen omhoog vliegen. Via Twitter maken we excuses, leggen we kort uit wat er aan de hand is en vragen we klanten om geduld. Ik voel me ondertussen redelijk bezwaard. Voys biedt een kwalitatief enorm hoogwaardig product en drie keer storing binnen twee weken hoort daar niet bij. Gelukkig zijn er veel klanten die begripvol reageren en ons succes wensen of ons complimenteren met onze openheid. De paar minder blije reacties begrijp ik volkomen. Helaas hebben we op dat moment niet de rust of tijd om daar de aandacht aan te geven die het verdient.

Nadine belt ondertussen met Voizes. Zij zijn onze antwoordservice buiten openingstijden en staan als achtervang in ons belplan. Wellicht krijgen zij al onze inkomende gesprekken binnen, dus Nadine geeft ze snel een status-update.

16:09 uur

Via Whatsapp krijgen we van Jorg de melding dat het inkomende verkeer weer werkt. Dat was me opgevallen, om me heen hebben alle collega’s klanten aan de lijn en overal hoor ik ongeveer hetzelfde gesprek: “Ja, er was een storing aan onze kant. [..] Mijn excuses! [..] Inmiddels zou het inkomende verkeer in ieder geval weer moeten werken.”

Brand meester

16:18 uur

Brand meester. De storing is verholpen. De oorzaak blijkt onvoldoende scheiding tussen de ‘voorkant’ en de ‘core’ die het belverkeer verwerkt. Dit in combinatie met een enorme groei van het belverkeer, applicaties en API’s, zorgde voor onregelmatigheden. Het stuk code dat de storing veroorzaakte is verwijderd en we kunnen met zekerheid zeggen dat alle functionaliteiten weer werken.

Gelukkig.

We halen opgelucht adem, maar veel rustiger wordt het er niet op. Want naast alle inkomende gesprekken, staan er in onze mailboxen een flink aantal mailtjes te wachten. We besluiten iedereen terug te bellen en uit leggen wat er aan de hand was. Tot ongeveer 17.15 uur zit iedereen keihard te bikkelen, maar we hebben iedereen kunnen antwoorden.

En nu?

Hoe gaan we dit voorkomen?

Bij twee van de drie storingen lag de oorzaak aan onze kant en dat hebben we de afgelopen 3 jaar niet meegemaakt. De derde, een DDoS-aanval van dit kaliber, was niet te voorkomen, gelukkig konden we die storing wel enorm snel oplossen. We bieden natuurlijk onze excuses aan voor de overlast die de storingen hebben veroorzaakt, maar alleen verontschuldigingen maken is niet genoeg, daar zijn we ons van bewust. We delen daarom graag wat concreet onze verbeterpunten zijn om dit soort storingen te voorkomen:

  • De komende tijd wordt er ontwikkelkracht weggehaald bij de ontwikkeling van nieuwe functies en deze kracht wordt verlegd naar het verbeteren van de scheiding van mijn.voys.nl en de core.
  • Daarnaast worden de verbeteringen – die op netwerkgebied al in voorbereiding waren – versneld uitgerold. Zo komen er twee nieuwe database servers en nemen we eind april de nieuwe BGP-routers in gebruik. Deze zaken maken het platform weerbaarder voor foutief gebruik in de front-end en verbeteren de fallback mogelijkheden van het netwerk.

Storingen doen pijn. Zeker wanneer je ze niet gewend bent.

Heb je nog vragen naar aanleiding van de storing? Je kunt ons bereiken op 050 – 700 9999 of via je eigen contactpersoon.

Meer verhalen lezen?

In de afgelopen jaren hebben we veel geschreven over ondernemen, zelfsturend werken, de handigste tools en nog veel meer. Dus leef je uit!

Van 19 februari 2024

Zo maak je van jouw organisatie de ultieme werkomgeving

Van 30 januari 2024

Telecomprovider Voys neemt Source2Cloud Services over