Azure è una delle principali piattaforme cloud pubbliche del mercato che si appoggia ad una complessa infrastruttura costituita da 38 regioni, centinaia di data center e migliaia di server come affermato da Yousef Khalidi (CVP, Azure Networking) in un recente post. Il monitoraggio costante di questo vasto network è cruciale per garantire il corretto funzionamento degli apparati informatici ed una normale fruizione dei servizi da parte degli utenti. Le linee guida dei servizi di monitoraggio Azure sono le seguenti e servono a chiarire perfettamente la sfida rappresentata dal monitoring del network Microsoft:
- velocità e precisione. L’individuazione di eventuali guasti/problematiche deve essere accompagnata dall’immediato ripristino delle normali operazioni;
- copertura. I servizi impiegati devono controllare il più ampio spettro possibile di componenti/elementi, dai pacchetti ai protocolli fino ai vari dispositivi alla base del network stesso;
- scala. I servizi devono processare petabytye di log, milioni di eventi e migliaia di correlazione provenienti da ogni parte del mondo e che giungono dopo aver attraversato migliaia di chilometri di “autostrade dati”;
- Ottimizzazioni da applicare tenendo conto di metriche reali. Le ottimizzazioni eventuali da applicare sul network sono frutto di valutazioni effettuate utilizzando metriche reali: i servizi hanno la capacità di scrutare in profondità o avere un’ampio sguardo di insieme su rack, data center, cluster, region e così via.
Azure: alcuni servizi di monitoraggio
Nel contributo sono presentati i seguenti servizi:
- Pingmesh. Un servizio che impiega delle “sonde TCP” che hanno un impatto trascurabile sulla banda passante ed hanno l’importante funzione di effettuare misurazioni RTT (round trip time). Lo scopo principale di Pingmesh è quello di individuare eventuali problematiche di latenza a livello dei pacchetti e verificare la raggiungibilità del network Azure.
- Netbouncer. Servizio che entra in azione quando si pensa di aver individuato una potenziale criticità (latenza, perdita di pacchetti etc.). Ulteriori analisi sono effettuate grazie a sofisticati algoritmi machine learning ed al controllo dello storico prestazioni. Quando l’incidente viene classificato come “problema di rete”, si procede all’individuazione del componente difettoso. Il reindirizzamento del traffico è una delle prime soluzioni adottate per mitigare gli effetti controproducenti di simili problematiche al quale segue il riavvio o anche la rimozione dell’elemento difettoso.
- Everflow. Servizio adoperato in situazioni in cui occorre ricostruire “la storia” ed il percorso effettuato da un determinato pacchetto. Considerando che il volume di traffico in un data center può raggiungere anche centinaia di terabyte al secondo, è chiaro come il tool sviluppato da Microsoft sia incredibilmente avanzato: “Everflow è in grado di effettuare l’injection di pattern di traffico, replicare determinati packet header e simulare i pacchetti del network del cliente. Senza Everflow sarebbe arduo ricreare l’esatto percorso intrapreso dal pacchetto del cliente[…]”.
Un altro compito assegnato ad Everflow è l’individuazione di errori frame check sequence (FCS) mediante il monitoraggio di ogni singolo cavo in fibra ottica presente nei data center. Gli errori FCS possono essere provocati da varie cause: errato posizionamento (ad esempio davanti a delle ventole), flessione del cavo, semplice decadimento prestazionale dovuto “all’invecchiamento” del cavo. La percentuale di errori tollerata è attualmente pari ad 1 errore ogni miliardo di pacchetti inviati. Elevate percentuali di errore portano allo spegnimento dei link interessati; dopo la “bonifica” del cavo, le sonde Everflow si accertano che i parametri siano rientrati negli standard stabiliti.
- The Map of the Internet. E’ un servizio che monitora in tempo reale lo stato di Internet e l’esperienza di utilizzo dei clienti. E’ inoltre in grado di stabilire quali siano le performance su classico collegamento via cavo e Wi-Fi. “Utilizziamo questo servizio per anticipare ed intervenire rattivamente [su problematiche che possono impattare sulla customer experience]”. I dati raccolti possono essere inoltre impiegati per mitigare eventuali criticità intervenendo a livello del traffico di Rete.
Anche se non adoperato direttamente dallo staff Microsoft, Azure Network Watcher è un servizio che può essere impiegato lato utente per diagnosticare eventuali problemi. L’utilizzo, da parte dei clienti, dell’astrazione software per l’impiego dei servizi Azure, rende necessari strumenti adeguati per la rappresentazione della topologia del network (qui sotto una immagine che mostra la “mappa” del network di un utente realizzata proprio con Network Watcher).
Fonte: 1