Delta Airlines è uno dei principali vettori aerei statunitensi che circa otto mesi fa è stato colpito da un grave black-out. Il data center della compagnia è rimasto sostanzialmente privo di energia elettrica per diverse ore, mandando in tilt arrivi e partenze programmate e portando alla cancellazione di quasi 300 voli. Enormi anche i danni d’immagine e soprattutto economici, stimati intorno ai 150 milioni di dollari. Come già detto in passato, queste vicende dimostrano l’importanza di efficaci piani di disaster recovery.
Hyperscale provider come Facebook, Google, Microsoft ed Amazon, per esigenze di business, sono giunti tuttavia ad un livello ulteriore di sofisticazione andando a personalizzare la propria strumentazione. John Hamilton (VP e distinguished engineer presso AWS) ha parlato recentemente delle modifiche apportate ai quadri elettrici impiegati nelle infrastrutture Amazon, al fine di preservare l’uptime dei servizi offerti ai clienti e scongiurare situazioni in stile “Delta Airlines”. Ecco come ha spiegato la scelta del provider di ricorrere a tale soluzione.
Una questione di priorità
Prima di iniziare l’esperienza in AWS, Hamilton ha lavorato quasi un decennio presso Microsoft. Nella sua lunga carriera ha dovuto fronteggiare almeno due volte situazioni come quella della Delta Airlines o del Superbowl 2013. Quando per qualsiasi motivo l’energia elettrica viene a mancare, i quadri elettrici (electric switchgear) entrano immediatamente in azione. I firmware di questi ultimi sono stati tuttavia impostati dai vendor per garantire l’incolumità dei generatori di supporto piuttosto che per preservare la continuità lavorativa. In caso di anomalie varie, gli switch provvedono quindi ad isolare immediatamente i generatori lasciando l’infrastruttura priva di energia. E’ questo quel che è avvenuto nel data center di Atlanta della Delta, un setup inadatto alle esigenze di AWS.
La maggior parte dele volte, prosegue, il problema non si verifica nell’impianto elettrico del data center: Hamilton parla ad esempio di un disservizio causato da un incidente autostradale e da alcuni tubi di alluminio che finirono sui cavi dell’alta tensione. E’ chiaro che l’isolamento totale dei generatori, in tali situazioni, è abbastanza inutile e comporta un black-out totale. Se si ha invece un problema interno al data center (cortocircuito, sistema elettrico gravemente compromesso) la questione diviene allora più delicata ed occorre prendere decisioni ben precise.
Le conseguenze derivanti da uno o l’altra situazione sono rispettivamente le seguenti: se i quadri elettrici hanno reagito a delle anomalie causate da fattori esterni, il non isolamento dei generatori non avrà alcuna ripercussione sui workload dei clienti. Se il problema è interno, gli interrutori di circuito dovrebbero entrare in azione preservando i server – che saranno affidati fonti alternative di energia; nelle peggiore delle ipotesi, i generatori potrebbero subire invece alcuni danni.
AWS ed economia di scala
Curiso aneddoto menzionato dall’ingegnere Hamilton: Amazon si è rivolta ai propri fornitori di switch chiedendo la modifica del firmware inadatto alle priorità della piattaforma. I vendor, pur sollevati da qualsiasi responsabilità derivante da tale pratica (i generatori di supporto possono costare da 1 a 4 milioni di dollari), si sono rifiutati di effettuare l’operazione. AWS ha allora dovuto mettere “personalmente” mano ai firmware e riconfigurarli nel modo descritto da Hamilton:
“[se l’alimentazione di rete viene a mancare o non rispetta determinati parametri, i quadri elettrici [switch per brevità] attendono prima alcuni secondi – nella maggior parte dei casi ritorna la corrente e non occorre intervenire. Se l’energia continua a mancare (l’intervallo tollerato è di solito 10 secondi), gli switch metteranno in funzione gli UPS. [Nel mentre] i generatori si accendono e raggiungono il regime operativo prestabilito – il tempo concesso per la stabilizzazione dei generatori non è molto. Quando l’energia dei generatori raggiunge parametri accettabili, il carico di lavoro viene reindirizzato sui generatori. […] Una volta che l’alimentazione di rete è nuovamente disponibile e stabile, l’infrastruttura torna ad essere alimentata da quest’ultima mentre i generatori vengono spenti”.
“Friggere” uno o più generatori da diversi milioni di dollari è un danno collaterale che non sembra preoccupare Hamilton:
“Preferisco mettere a rischio 1 milione di dollari piuttosto che [avere un block-out]. Se solo un cliente rischia di perdere 100 milioni di dollari, il salvataggio di un generatore non è esattamente la giusta priorità.”
Una frase che spiega benissimo la forza degli hyperscale provider e delle economie di scala, le quali permettono di mettere a rischio della costosa strumentazione – anche perchè le perdite derivanti dall’indisponibilità dei servizi sarebbero molto più consistenti.
Fonte: 1