Shit, weer storing!

auteursafbeelding

Joris

9 februari 2017
Clock 5 min

Update 12/02/2017

Onderstaand blog schreef ik op donderdagmiddag. “Nu mag het niet nog een keer fout gaan”, dacht ik. Ik hoopte dat stukje karma met mijn blog af te dwingen. Helaas bleek dat niet het geval. Vrijdagmiddag hadden we weer een storing op ons platform.

We wisten exact wat de oorzaak was. Ook deze storing kwam voort uit het onderhoud dat we hebben uitgevoerd op onze servers. Het is heel moeilijk om goed uit te leggen hoe dit nou kon zonder in de technische details te treden. Onze collega Mark heeft vrijdagavond heeft nog een film opgenomen om uitleg te geven en die je vindt samen met meer uitgeschreven informatie op op onze opgeloste storingenpagina. Omdat dat voor veel klanten (en voor collega’s die het mogen uitleggen aan de telefoon) nog te technisch is, leg ik het in onderstaand stukje zoveel mogelijk in lekentaal uit.

Niet-technische uitleg

We hadden twee keer onderhoud op onze servers ingepland: op 8 en op 22 februari. Dit onderhoud voerden we uit om te voorkomen dat er storingen zouden optreden, om ze toekomstbestendiger te maken.

Na het uitvoeren van het onderhoud op 8 februari hebben we ons platform in een tussentijdse staat gebracht. We konden namelijk het hele platform niet in één keer updaten. Deze tussentijdse staat hebben we succesvol getest. De tweede update op 22 februari zou het platform naar de definitieve staat brengen. Helaas traden er tijdens de tijdelijke staat onverwachte neveneffecten op die leiden tot de storingen van afgelopen donderdag en vrijdag.

Gelukkig wisten we precies hoe we dit moesten oplossen. Dat hebben we afgelopen vrijdagavond meteen gedaan. Verder hebben we dit weekend keihard doorgewerkt om nog meer updates door te voeren die de betrouwbaarheid van het platform terugbrengen naar de staat die je van ons gewend bent. De update van 22 februari is voorlopig uitgesteld.

Graag willen we nogmaals benadrukken dat we het heel vervelend vinden dat dit is gebeurd en dat we er alles aan doen om jullie vertrouwen terug te winnen.

——–

Blog 9/2/2017

Er wordt op de deur geklopt. Het is mijn collega Annemieke: “Joris, we hebben weer een storing.” “Nee, niet weer!” Vandaag beleefden we de zevende verstoring in de afgelopen 40 dagen. Dat mag niet.

Heel 2016 hebben we maar één  storing gehad; op 30 december, de één na laatste dag van het jaar, werden we getroffen. Die storing hadden we binnen 20 minuten opgelost. Zo’n 20 minuten dat onze klanten niet kunnen bellen, voelen hier op het Voys hoofdkantoor aan als uren.

Sinds die 30ste december lijkt er een kleine vloek op ons te rusten. Wanneer je werkt met techniek is het onoverkomelijk dat je af en toe een storing hebt, maar zeven storingen in 40 dagen is echt te veel.

Uptime

Wij vinden het echt heel erg dat onze klanten hier enorme hinder van ondervinden. Onze klanten zijn organisaties die in hun bedrijfsvoering vaak erg afhankelijk zijn van goede telefonie en juist daarom hebben gekozen voor Voys: een betrouwbare telefonie-aanbieder met een fantastische uptime van boven de 99,9%.

Nu hebben we zelf het gevoel dat we in de afgelopen 40 dagen ons opgebouwde krediet aan het verspelen zijn. Voor het eerst in onze geschiedenis krijgen we mailtjes en belletjes van klanten waarin ze zich afvragen of we nog wel zo’n betrouwbare aanbieder zijn. Dat ze misschien wel bij ons weggaan. Dat ze meer toelichting willen hebben over wat er is gebeurd.

Allemaal terechte vragen en ik geef graag wat toelichting op wat er aan de hand was in de afgelopen 40 dagen.

Type storingen

Het is belangrijk om een onderscheid te maken tussen twee type storingen: een DDoS-aanval is een verstoring veroorzaakt buiten de techniek om waar wij geen invloed op hebben. Een storing op ons platform daarentegen wordt veroorzaakt door een probleem in de techniek waar wij wel invloed op hebben.

30 december en 8 februari: storingen  door ‘loops’ in belplannen

Een ‘loop’ in het belplan van een klant zorgt voor een storing. Ondanks dat we een fantastisch ‘loopdetectiesysteem’ gebouwd hebben, is een variabele bij een klant er doorheen geslopen en legde bijna 20 minuten het platform plat. Hierop hebben we direct een ticket aangemaakt om dit snel op te lossen. Helaas gebeurde bij een andere klant van Voys op 8 februari precies hetzelfde, waardoor onze klanten 15 minuten onbereikbaar waren. Daarop hebben wij direct dezelfde dag nog een hotfix gemaakt, waardoor het niet meer mogelijk is dat een dergelijke fout ontstaat.

9 januari en 25 januari: kleine storingen

Op deze data hadden we kleinere storingen door kleine bugjes in de servers die gelukkig geen impact hadden op de reguliere telefonie. De eerste zorgde ervoor dat klanten binnenkomende voicemails niet konden afluisteren. Die van 25 januari hield in dat de Voys 4G app twee uren lang geen telefoontjes binnenkreeg.

27 januari en 1 februari DDoS aanvallen

Twee keer binnen 5 dagen hadden we te maken met een DDoS aanval. Hier konden we niets aan doen. Als je als bedrijf te maken hebt met een DDoS aanval, dan kun je deze alleen maar zo goed mogelijk afweren.  Ondanks dat we het heel vervelend vonden dat er geen telefonie mogelijk was, waren we ook blij om te zien dat onze DDoS preventiemiddelen naar behoren werken.

9 februari storing na serveronderhoud

Storing nummer zeven diende zich vandaag aan. Juist gisteravond laat heeft onze leverancier onderhoud uitgevoerd aan de servers om bepaalde bugs te voorkomen en te zorgen dat de kwaliteit en uptime ervan nog stabieler zou zijn. 22 februari staat een tweede onderhoud op de planning om het compleet te maken.

Maar goed, vervolgens kwam Murphy’s Law om de hoek kijken en ‘bit us in the ass’. De database load op één van de servers werd te hoog waardoor deze crashte. Deze crash zorgde voor een lock welke handmatig verwijderd moest worden. Daardoor waren we 15 minuten lang uit de lucht.

Beterschap

Wij kunnen niet beloven dat we niet weer een storing hebben, vandaag, morgen, overmorgen of volgende week. Wat we wel kunnen beloven zijn de volgende drie dingen:

  • Wij werken er iedere dag keihard aan om storingen te voorkomen.
  • Ten tijde van een storing zorgen we altijd dat deze zo snel mogelijk is opgelost. (de langste telefonie storing was ongeveer 20 minuten)
  • Wij zullen altijd snel en eerlijk over storingen communiceren, hoe pijnlijk het soms ook is.

Per dag opzegbaar

Voys heeft er bewust voor gekozen om diensten per dag opzegbaar te maken, juist om onszelf te verplichten om kwaliteit te leveren. Wij beseffen ons terdege dat we onze klanten de afgelopen veertig dagen een onvoldoende aan kwaliteit hebben geleverd. Dat wij nu e-mails krijgen dat het vertrouwen opgaat vinden we dan ook heel begrijpelijk. Toch zouden we het heel erg vinden als klanten ons verlaten, ook al is het hun goed recht. We gaan er alles aan doen om jullie vertrouwen weer terug te winnen en hopen dat we 2017 kunnen afsluiten zoals we 2016 begonnen zijn. Met een ontzettend lange storingsvrije periode.

Nogmaals bieden we onze oprechte excuses voor het ongemak aan.

Mocht je nog problemen ondervinden met je telefonie, dan staan onze klantgelukcollega’s altijd voor je klaar.

Meer verhalen lezen?

In de afgelopen jaren hebben we veel geschreven over ondernemen, zelfsturend werken, de handigste tools en nog veel meer. Dus leef je uit!

Van 28 augustus 2024

Met deze 5 slimme features hou jij de ontspanning van de zomervakantie het hele jaar vast

Van 20 juni 2024

Accessibility: zo maken we onze producten toegankelijk voor klanten met een beperking