Larik-Jan vertelt over hoe Disaster Recovery de schade enorm had kunnen beperken.
xact een week geleden brak er brand uit in een datacenter van OVHcloud in Straatsburg. Op woensdag 10 maart om 0:47 uur is datacenter SBG2 volledig in vlammen opgegaan en zijn drie omliggende datarooms uitgevallen. In totaal raakten hierdoor ruim 3,6 miljoen websites lange tijd offline, waaronder websites van banken, overheidsinstanties en webwinkels. De melding vanuit oprichter Octave Klaba was helder: activeer het Disaster Recovery-plan
Met grote interesse heb ik dit incident gevolgd: het is namelijk één van de rampscenario's die wel eens door mijn hoofd spookt. Bijvoorbeeld wanneer we een datacenter-tour doen met potentiële klanten of als we een selectie van een nieuwe locatie (ter uitbreiding) doen. Je wilt namelijk alles doen om zo’n ramp te voorkomen. Hoe? Door kritisch te kiezen voor een juiste partner in het datacenterlandschap en mee te kijken met de procedures en maatregelen die zij nemen om zaken als brand op tijd te detecteren. Een essentieel onderdeel vind ik bijvoorbeeld VESDA (Very Early Smoke Detection Apparatus): een systeem dat deeltjes in de lucht scant en zo al heel snel een verandering in de luchtsamenstelling kan detecteren. Hieronder staat een foto van een VESDA systeem (de rode buizen met sensoren).
Een ander essentieel onderdeel is, wanneer het nodig is: blussing met Argon gas om zuurstof te reduceren. Dit zorgt dat een brand snel dooft en spaart de apparatuur. Hieronder staat een foto van zo'n gasblusinstallatie.
Naast bovenstaande verantwoordelijkheden die bij de datacentra ligt, kijken we ook scherp naar wat we zelf kunnen doen. In onze racks zorgen we voor de juiste airflows zodat de apparatuur altijd maximaal wordt gekoeld en er zo min mogelijk hitte ontstaat. Daarnaast meten we het stroomverbruik in de rackfeeds: beide redundante voedingen moeten de totale vraag aankunnen bij uitval van één van de fasen. Maar daarnaast is het ook van belang om goed te balanceren over de fasen om pieken in stroomvraag te voorkomen. Het zijn relatief kleine dingen, maar deze zorgen wel dat er voorspelbaar gedrag zal zijn in de unieke gevallen: wanneer een fase uitvalt en weer terugkomt, wil je zeker geen spanningspieken veroorzaken die disbalans geven in de stroomtoevoer van de racks. In het ergste geval reageert een voiding van de apparatuur daar slecht op en kan er kortsluiting ontstaan, waardoor er een aanleiding kan zijn voor een situatie met grote gevolgen.
Maar even terug naar het incident van een week geleden. Wat is er zoal gedaan? De concullega’s van OVHcloud werken met man en macht om de omliggende datacentra die niet vernietigd zijn weer op te starten. De huidige status na een week is dat vandaag de stroom weer hersteld wordt en dat over een kleine week verwacht wordt dat servers weer gestart kunnen worden. Het door brand vernielde SBG2 kan niet meer gebruikt worden en de infrastructuur wordt in andere datacentra herbouwd (in Roubaix en Gravelines). Hierbij wordt in batches gezorgd voor nieuwe infrastructuur, waarop vervolgens herstel van dienstverlening verricht kan worden. Dus even terug naar die opmerking van Octave Klaba: activeer het Disaster Recovery plan. Heeft u wel eens bij het belang van Disaster Recovery stilgestaan? Uit deze case leren we dat het zomaar twee weken kan duren voordat infrastructuur in een rampscenario weer beschikbaar wordt.
We zien bij al onze klanten dat er in ieder geval een vorm van back-up is ingeregeld. Hiermee kunnen wij data herstellen op datacenterinfrastructuur in één van onze locaties. Maar wat als er een totaal datacenter uitvalt, of erger nog, volledig vernietigd wordt? Dan moeten wij ook data gaan herstellen in één van de andere locaties. Op basis van overcapaciteit zullen we een heel eind komen, maar een compleet datacenter herstellen neemt veel tijd in beslag. Een week, of zelfs twee, zijn dan zo voorbij. Juist om die redenen adviseren wij altijd om te kijken naar een uitwijk-plan. Zorg dat kritieke infrastructuur gerepliceerd wordt naar een tweede locatie, waar deze altijd start-klaar staat, al is het voor een klein cruciaal deel. En ook niet onbelangrijk: test dit regelmatig.
Vaak zie ik in de discussie voor dit deel van onze diensten ook wel terughoudendheid: is back-up niet genoeg? Als je het afweegt tegen de kans dat een incident plaatsvindt met desastreuse gevolgen, zou je daar best ‘ja’ op kunnen antwoorden. Toch raad ik altijd Disaster Recovery aan, zeker als je afhankelijk bent van de IT die je vanuit de Cloud haalt. Kan die een dag, of zelfs een week afwezig zijn? Vaak is dat antwoord dan heel stellig: nee. Zorg daarom voor die verzekering en spreid de risico’s over meerdere datacentra. Fundaments heeft eenvoudige, solide oplossingen op basis van vCloud Availability en Zerto die dit waar kunnen maken. Of het nu tussen bestaande Fundaments Cloud locaties is, of vanaf uw eigen bedrijfslocatie naar de Fundaments of Publieke cloud. Alle scenario's zijn daarin te ondervangen. Kijk hieronder hoe eenvoudig een DR-plan kan worden ingeregeld.
Disaster Recovery is een must voor elke ondernemer. Of het nu gaat om een multinational of de spreekwoordelijke fietsenmaker op de hoek met een kleine webshop. Disaster Recovery helpt iedereen een potentiële ramp te voorkomen. Je zou dan ook denken dat iedere ondernemer weet wat Disaster Recovery is, hoe het werkt en waarom het nodig is. Niks is minder waar.