03/03/2017 di Redazione

Un click di troppo: Aws ha trovato la causa del disservizio

C’è l’errore umano alla base dell’inaccessibilità dello storage S3 di Amazon Web Services di martedì scorso: un’operazione sbagliata che ha fatto piombare nel caos migliaia di siti. L’azienda ha spiegato che implementerà nuovi sistemi per evitare in futur

Nella notte italiana tra martedì e mercoledì scorsi un’intera regione di Amazon Web Services, la Northern Virginia (Us-East-1), si è scontrata con massicci problemi di erogazione del Simple Storage Service (S3), rendendo inaccessibili per quasi quattro ore migliaia di siti e oggetti connessi tra cui Docker Hub, Trello, Travis CI, Github, Minecraft e Yahoo! Mail. Il provider aveva garantito spiegazioni, che sono arrivate ieri. In estrema sintesi, si è trattato di un banale errore umano dovuto allo “spegnimento” temporaneo di una serie sbagliata di server. Andiamo con ordine. Come illustrato da Aws a questa pagina, martedì 28 febbraio il team di S3 stava effettuando il debugging di un errore che stava rallentando in modo inaspettato il sistema di fatturazione del servizio di storage sulla nuvola.

Alle 9.37 del mattino, un membro autorizzato del team ha lanciato un comando per scollegare un piccolo numero di server da uno dei sottosistemi S3 utilizzati nel processo di fatturazione. Per usare le parole di Aws, “sfortunatamente” uno dei comandi è stato inserito in modo scorretto, causando la rimozione di un numero ben più consistente di server, i quali supportavano altri due sottosistemi S3.

Uno di questi, incaricato di gestire l’indice, processava i metadati e le informazioni di localizzazione di tutti gli oggetti S3 presenti nella regione Us-East-1, elaborando tutte le richieste Get, List, Put e Delete. Il secondo cluster, invece, gestiva l’allocazione di nuovo storage e si appoggiava all’infrastruttura di indicizzazione per funzionare correttamente.

“Rimuovere una porzione significativa della capacità ha richiesto un riavvio completo dei sistemi”, ha scritto Amazon Web Services nella nota. Ovviamente, durante l’inattività dei server, S3 non è riuscito a processare le richieste, bloccando di fatto anche altri servizi dipendenti dallo storage cloud di Aws, tra cui Ec2, Ebs, Lambda e, cosa ancora più importante, la stessa dashboard della piattaforma.

Per questo, nei primi istanti del disservizio (e prima che Aws ne desse conferma), il cruscotto del provider non segnalava alcun problema. Per concludere, a rallentare le operazioni di ripristino è stato proprio il riavvio del sottosistema indice, che non avveniva da tempo e ne ha quindi richiesto molto più “del previsto”. Come anticipato già nella giornata di martedì dall’azienda di Seattle, l’interruzione non è stata quindi causata da attacchi hacker.

Per evitare problemi analoghi in futuro, il provider ha deciso di modificare i parametri dello strumento che serve e rimuovere capacità di storage, rallentandone la velocità di esecuzione. Inoltre, il gruppo ha aggiunto un elemento di salvaguardia per evitare che la capacità di elaborazione scenda al di sotto di un certo livello.

Infine, Aws è intervenuta sulla velocità di recupero dei sottosistemi S3, teoricamente già oggi ottimizzata per “spezzettare” i servizi di storage in “celle” più piccole, su cui lavorare più agilmente. Ma, come sottolineato dall’azienda, quanto implementato non si è rivelato all’altezza di un evento così importante. Una vicenda che farà sicuramente riflettere il provider, ma che sottolinea ancora una volta come sia fondamentale adottare strategie multicloud, che permettono in casi come questo di limitare fortemente i danni.

Un click di troppo: Aws ha trovato la causa del disservizio

ARTICOLI CORRELATI

Attacchi cyber in Italia, telco e Pubblica Amministrazione nel mirino
24/04/2024 di Valentina Bernocco

Gestione infrastrutture e sicurezza, Ibm vicina a comprare HashiCorp?
24/04/2024 di redazione

Hitachi Vantara consente lo storage unificato e senza silos
24/04/2024 di redazione

Dall’IoT all’intelligenza artificiale con gli access point Hpe Aruba
24/04/2024 di redazione

Attacchi cyber in Italia, telco e Pubblica Amministrazione nel mirino
24/04/2024 di Valentina Bernocco

La maturità nella cybersecurity non riguarda le aziende italiane
24/04/2024 di Roberto Bonino

Gestione infrastrutture e sicurezza, Ibm vicina a comprare HashiCorp?
24/04/2024 di redazione

Hitachi Vantara consente lo storage unificato e senza silos
24/04/2024 di redazione

I furbetti sul lavoro in Italia usano l’AI a proprio comodo
06/02/2024 di Redazione

Colpo di scena sulla Apple Car: forse non la vedremo mai
28/02/2024 di Valentina Bernocco

Italia sotto attacco cyber: episodi “gravi” in crescita nel 2023
08/03/2024 di Elena Vaciago

Gestione e risoluzione dei rischi cyber: Armis compra Silk Security
17/04/2024 di redazione

Un click di troppo: Aws ha trovato la causa del disservizio

ARTICOLI CORRELATI

Attacchi cyber in Italia, telco e Pubblica Amministrazione nel mirino 24/04/2024 di Valentina Bernocco

Gestione infrastrutture e sicurezza, Ibm vicina a comprare HashiCorp? 24/04/2024 di redazione

Hitachi Vantara consente lo storage unificato e senza silos 24/04/2024 di redazione

Dall’IoT all’intelligenza artificiale con gli access point Hpe Aruba 24/04/2024 di redazione

Attacchi cyber in Italia, telco e Pubblica Amministrazione nel mirino 24/04/2024 di Valentina Bernocco

La maturità nella cybersecurity non riguarda le aziende italiane 24/04/2024 di Roberto Bonino

Gestione infrastrutture e sicurezza, Ibm vicina a comprare HashiCorp? 24/04/2024 di redazione

Hitachi Vantara consente lo storage unificato e senza silos 24/04/2024 di redazione

I furbetti sul lavoro in Italia usano l’AI a proprio comodo 06/02/2024 di Redazione

Colpo di scena sulla Apple Car: forse non la vedremo mai 28/02/2024 di Valentina Bernocco

Italia sotto attacco cyber: episodi “gravi” in crescita nel 2023 08/03/2024 di Elena Vaciago

Gestione e risoluzione dei rischi cyber: Armis compra Silk Security 17/04/2024 di redazione

Iscriviti alla newsletter di ictBusiness.it

Attacchi cyber in Italia, telco e Pubblica Amministrazione nel mirino
24/04/2024 di Valentina Bernocco

Gestione infrastrutture e sicurezza, Ibm vicina a comprare HashiCorp?
24/04/2024 di redazione

Hitachi Vantara consente lo storage unificato e senza silos
24/04/2024 di redazione

Dall’IoT all’intelligenza artificiale con gli access point Hpe Aruba
24/04/2024 di redazione

Attacchi cyber in Italia, telco e Pubblica Amministrazione nel mirino
24/04/2024 di Valentina Bernocco

La maturità nella cybersecurity non riguarda le aziende italiane
24/04/2024 di Roberto Bonino

Gestione infrastrutture e sicurezza, Ibm vicina a comprare HashiCorp?
24/04/2024 di redazione

Hitachi Vantara consente lo storage unificato e senza silos
24/04/2024 di redazione

I furbetti sul lavoro in Italia usano l’AI a proprio comodo
06/02/2024 di Redazione

Colpo di scena sulla Apple Car: forse non la vedremo mai
28/02/2024 di Valentina Bernocco

Italia sotto attacco cyber: episodi “gravi” in crescita nel 2023
08/03/2024 di Elena Vaciago

Gestione e risoluzione dei rischi cyber: Armis compra Silk Security
17/04/2024 di redazione