Down di Amazon Web Services: cosa si sa finora

News-HS

Qualche giorno fa in tutto il mondo si è sperimentato ancora una volta cosa significa avere problemi tecnici anche quando il fornitore dei servizi è, verosimilmente, uno dei più importanti al mondo nel suo ambito se non il più importante. Questo perché su tutte le cronache si è letto del down occorso ai servizi Amazon, che da ora in avanti chiameremo AWS (da Amazon Web Services), che ha messo letteralmente in ginocchio anche aziende centrali e note in tutto il mondo.

Milioni di siti sono stati interrotti a partire all’incirca dalle 4 della notte (ora degli Stati Uniti) del 20 ottobre e lo stop è durato oltre 45 minuti, durante i quali alcuni portali come, per esempio, la piattaforma AI Perplexity e lo strumento per la creatività Canva, sono stati del tutto inutilizzabili. Il problema non ha assolutamente escluso gli stessi portali di proprietà di Amazon, come il sito e-commerce e la piattaforma streaming Prime Video, ma anche Alexa e Ring, oltre ai videogames online con utenti in tutto il mondo come Fortnite, Clash of Clans e Roblox. Fin da subito, l’azienda di Jeff Bezos ha dichiarato di essere al corrente delle problematiche dichiarando che la causa risiedeva in un guasto degli apparati in Virginia, nella regione US-EAST-1, ovvero nel centro più grande dell’azienda.

Il commento fatto in prima istanza da Amazon è stato quindi quello riguardante la posizione dell’interruzione, al quale è stato aggiunto che l’interruzione poteva creare problemi anche nell’apertura di ticket dal centro di supporto o tramite le API di assistenza, ma da ulteriori analisi alcuni esperti hanno osservato che il tutto sembra essersi originato da un problema di risoluzione dei DNS per l’endpoint API DynamoDB, un database utilizzato in tutto il mondo per la conservazione dei dati degli utenti. Su tutti i portali interessati dal down sono iniziati ad apparire messaggi di scuse e pagine di cortesia che spiegavano che il down era dovuto a cause da imputare ad AWS e indipendenti dalla loro volontà. Se si pensa a quante, grandissime, aziende si appoggiano a questi servizi si capisce quanto questo possa influire anche sulla reputazione e il danno che può arrecare. Ma è anche vero che Amazon non dovrebbe avere troppe onde lunghe di problemi d’immagine anche dopo questa interruzione indesiderata.

Il down, lo abbiamo specificato, è durato 45 minuti ed è iniziato all’incirca intorno alle 4 di notte (orario americano), inizialmente solo negli USA e poi sui servizi di tutto il mondo, ma il giorno stesso, alle ore 12 circa, Amazon continuava a dire di avere problemi ai bilanciatori di rete, cosa che anche a down ufficialmente terminato stava dando altri problemi di continuità a coloro che si appoggiavano ai servizi cloud AWS. Ovviamente nel messaggio era presente anche l’impegno alla risoluzione del problema con altre misure, cosa che avrebbe fatto funzionare nuovamente anche la connessione alle API per i clienti. Tuttavia, allo stesso orario moltissimi utenti della piattaforma Canva, sulla quale gli utenti collegati continuavano a ricevere messaggi di mancato collegamento, cosa che ha limitato le scuole statunitensi che, a quanto pare, ricorrono in massa a questo sito per la creatività.

Le domande sulla problematica permangono, ma sembra che anche a giorni di distanza Amazon stia continuando a dire che la causa di tutto è stata proprio DynamoDB, alla quale i clienti non riuscivano a connettersi a causa di difetti negli automatismi del DNS. Inoltre, il guasto totale si è risolto superficialmente in tre quarti d’ora circa, ma gli impatti sono perdurati per più di 14 ore ed ha richiesto un intervento manuale degli operatori di Amazon. Senza assolutamente dare addosso all’azienda statunitense, nei giorni immediatamente successivi sono iniziate anche alcune riflessioni riguardanti non tanto i servizi cloud in generale, che quotidianamente dimostrano la loro utilità, ma l’oligopolio dei fornitori, dai quali molte aziende ma soprattutto molte aree geografiche dipendono, e questo evento ne è la riprova. Un’altra tematica invece riguarda anche l’eccessivo affidamento a queste piattaforme, cosa sulla quale AWS non ha responsabilità, che vanno invece cercate tra i proprietari delle piattaforme e chi nelle aziende delinea la strategia IT. Un caso esemplare, raccontato dai quotidiani inglesi, è quello del produttore di letti intelligenti, Eight Sleep, i cui prodotti vengono collegati alla rete e possono essere gestiti via web tramite piattaforma. Durante il down di AWS tutti i letti di Eight Sleep però non sono stati regolabili né in inclinazione né in temperatura, questo, in piccolo, mostra chiaramente quale sia il problema di impostare in un solo modo i propri sistemi rischiando poi di mettere in difficoltà i propri clienti, coi quali l’azienda si è scusata promettendo anche l’introduzione della possibilità di effettuare le regolazioni anche via Bluetooth col proprio device mobile.

Il nocciolo della questione rimane, secondo molti esperti, proprio quello della perdita, se possibile, di quella resilienza richiesta quando si gestisce qualcosa in rete, perché ad oggi, in un mondo in costante ricerca di scalabilità rapida e soluzioni adatte a tutti i tipi di contesti, i grandi player del mercato si sono ritrovati ad avere a che fare con pochissime aziende, tra le quali spicca proprio AWS. Non è anormale che l’azienda di Bezos abbia un problema tecnico, visto che può capitare a tutti in qualsiasi momento, ma magari potrebbe essere ripensato proprio il concentramento dei propri dati e di quelli dei propri clienti, spesso milioni, a un numero così esiguo di soggetti. In ultima analisi, proprio questi problemi, che ripetiamo essere possibili per qualsiasi tipo di fornitore, devono far scaturire riflessioni su quali sono le priorità, ovvero scegliere una strada tra quella delle prestazioni più elevate o quella della ricerca a tutti i costi, anche mediante investimenti, della business continuity, ma è anche vero che nulla vieta di seguire strade ibride.

 

Fonti: 1, 2