Caso Delta: l’importanza dei piani di disaster recovery

Lo scorso 9 Agosto la compagnia aerea statunitense Delta ha dovuto fronteggiare un blocco dei propri sistemi informatici. L’inattesa interruzione di servizio ha letteralmente mandato in tilt il calendario di arrivi e partenze della flotta portando alla cancellazione di circa 300 voli. Secondo quanto dichiarato ufficialmente dai vertici aziendali, il disservizio sarebbe stato provocato da un black-out di vasta scala.

Il portale The Next Platform ha colto l’occasione per fare il classico punto della situazione sui piani di disaster recovery (DR) spiegando se vi sia un effettivo ROI nell’investimento in infrastrutture multiple, disaster recovery as a service ed affini. Del resto il problema è tutt’altro che confinato al mondo delle compagnie aeree: qualsiasi business di un certo livello si affida a sistemi informatici teoricamente stabili, sicuri, resilienti ed una situazione come quella Delta potrebbe verificarsi in qualsiasi momento.

Una cosa è certa, afferma nell’articolo, comunque vada si dovrà pagare qualcosa, spetta all’azienda scegliere “cosa”: i problemi derivanti dalla perdita dei dati/interruzione di servizio o gli elevati costi della ridondanza? Agli inizi del nuovo millennio, una delle prime compagnie a dotarsi di un’infrastruttura in grado di ridurre al minimo i downtime fu Amazon (ridondanza geografica assicurata da availability zone multiple resilienti e ad alta disponibilità): certo, si parla sempre di un’azienda che opera nel settore tecnologico e partiva quindi avvantaggiata ma la situazione è analoga a quella Delta. Gli intuibili svantaggi di una soluzione come quella di Amazon risiedono negli elevati costi da sostenere, chiaramente non alla portata di tutti. Istituti di credito e strutture sanitarie devono rispondere a determinati requisiti di disaster recovery ma per tutte le altre aziende trovare il giusto compromesso tra rischi/guadagni è arduo.

Le aziende non sono adeguatamente preparate?

Alla domanda cerca di rispondere l’esperto di DR Joe Rodden secondo il quale buona parte delle imprese non è in grado di fronteggiare situazioni di emergenza o i cosidetti cascading system failures (fallimenti di sistema a catena). I problemi principali sono due: la scarsa volontà delle imprese di effettuare test reali per valutare il livello di affidabilità dell’infrastruttura; un’errata concezione che vede nell’impiego di approcci/tecnologie varie (virtualizzazione, alta disponibilità) dei perfetti sostituti del disaster recovery.

E’ abbastanza facile nascondersi dietro questi termini, osserva l’editorialista, così come lo è il non notare importanti dettagli: “quando qualcuno afferma che un data center è resiliente, [intendendendo con questo] che la connessione di rete o l’energia elettrica [giungono nell’edificio da due canali separati], è tutto ok, almeno fino a quando non accade qualcosa. [I vari elementi che costituiscono il data center] si trovano tutti nella medesima struttura. Senza alcuna [sessione di testing] potrebbe ad esempio non essere chiaro che [i due fornitori di connettività apparentemente separata fanno in realtà capo allo stesso provider]” spiega Rodden.

E nel cloud la situazione non è differente, molte compagnie associano il proprio piano di disaster recovery all’impiego di VM (virtual machine), dimenticando che le VM dipendono da una macchina fisica situata all’interno di un data center, un’infrastruttura che in assenza di dovuti accorgimenti (ridondanza geografica etc.) non è in grado di garantire l’efficacia di un piano DR (quest’ultimo non potrebbe essere definito nemmeno come tale, osserva Rodden).

Gli esempi legati all’uso improprio di alcuni termini continuano e Joe ricorda che le aziende sono solite confondere l’alta disponibilità con il disaster recovery. Certo, aggiunge, l’alta disponibilità può includere elementi di DR ma ciò non avviene mai automaticamente – è l’azienda che deve provvedere ai dovuti accorgimenti. I legami tra uno e l’altro termine sono poco chiari: “in passato ho visionato contratti con intere sezioni di strategie DR nelle quali si enfatizzava l’alta disponibilità con database multipli e ridondanti, ma quando ho chiesto dove fossero situati [i database] [mi è stato detto che erano tutti nello stesso data center]”.

Costi, rischi e benefici

Il discorso è abbastanza semplice per Rodden: se i workload o i processi mission critical dell’azienda sono localizzati in un unico data center, non è possibile parlare di piano DR – indipendentemente dalla resilienza e/o dall’alta disponibilità dell’infrastruttura. Per ridurre le probabilità di una “situazione Delta” bisogna ricorrere alla ridondanza geografica e geo-replica dei dati su almeno tre data center: i tempi di latenza in caso di black-out saranno più alti del solito ma l’attività lavorativa non si paralizzerà totalmente per ore come nel caso della compagnia aerea statunitense. Affiancando a tutto questo l’impiego di un servizio DR as a service, quindi con la replica dei dati in un data center cloud, si avrà una garanzia ulteriore sulla continuità operativa dell’impresa ed un risparmio non trascurabile – rispetto ad una struttura separata di backup.

In conclusione tutto ruota attorno ai costi ed ai rischi che l’azienda è disposta a correre. In linea di massima il problema da risolvere è il seguente: i costi (perdite) dovuti ad un improvviso black-out e sospensione dell’attività sono inferiori, uguali o superiori a quelli da destinare alla costruzione di un data center aggiuntivo / di supporto?

Una stima tutt’altro che semplice da effettuare considerando che buona parte delle aziende non sono esperte in materia di data center ed affini. In un mondo in cui al giorno d’oggi numerose aziende basano in parte o totalmente il proprio business su sistemi informatici è comunque evidente che lo studio di un efficace piano di disaster recovery è assolutamente imprescindibile.