AWS-katkos: Mitä tapahtui, syyt ja laajuus

Universaali seikkailu » general » Massiivinen AWS-katkos: alkuperä, laajuus ja palautumistila

AWS-katkos sai alkunsa US-EAST-1-alueelta ja johti kohonneisiin virhemääriin ja viiveisiin.
Syynä viitattiin DNS-ongelmiin, jotka vaikuttivat DynamoDB-rajapintaan.
Vaikutukset Amazoniin ja kolmansien osapuolten palveluihin olivat maailmanlaajuisia; Espanjassa pankki- ja televiestintäala kärsivät.
Amazon raportoi elpymisen merkkejä keskipäivällä, mutta tilapäisiä rajoituksia voi esiintyä tilapäisten toimitusten vuoksi.

Laajamittainen häiriö Amazon Web Services Maanantaina tapaus aiheutti laajoja häiriöitä verkkosivustoilla, sovelluksissa, videopeleissä ja yritysjärjestelmissä. Tapaus havaittiin noin klo 9 (Espanjan niemimaan aikaa) Ja vaikka tilanne alkoi vakiintua keskipäivällä, täysi ennallistaminen on tapahtunut vaiheittain eri laitureilla.

Vaikutus oli laaja-alainen: Amazonin omista palveluista, kuten Alexa-älykaiuttimet y Prime Video kolmannen osapuolen työkaluihin, kuten hämmennys, Duolingo, Kangas tai pelejä, kuten Fortnite, Roblox y Clash Royale. sisään Espanja Häiriöitä havaittiin myös verkkopankeissa (BBVA, ING, Santander ja CaixaBank), operaattoreissa, kuten Movistar y Oranssija lipunmyynnissä, Ticketmaster suunniteltujen laukaisujen lykkäämistä.

Mitä tapahtui ja mistä se sai alkunsa

Pilvipalvelun käyttökatkos

AWS:n virallinen tilannesivu raportoi a lisääntyneet virheet ja latenssit joka vaikutti useita palveluita US-EAST-1:llä (Pohjois-Virginia), yksi sen kriittisimmistä alueista. Sisäiset tutkimukset osoittivat nopeasti DNS-häiriö mikä vaikutti API:n resoluutioon Amazon DynamoDB, mikä laukaisi kaskadimäisiä vikoja.

Yhtiön päivitysten mukaan lieventäviä toimenpiteitä toteutettiin ja ne alkoivat näkyä. selviä toipumisen merkkejä koko aamun ajan. AWS ilmoitti, että taustalla oleva DNS-ongelma lievennettiin ja että vaikka useimmat toiminnot toimivat normaalisti, joitakin pyyntöjä voitiin havaita rajallinen väliaikaisesti tehtävien kertymistä.

Innovatiivisten tiedehankkeiden edistäminen Espanjassa ja Euroopassa

Esiintyvyyden aikajärjestys

Ensimmäiset hälytykset valvontaportaaleissa, kuten Downdetector rekisteröitiin hieman ennen kello 9.00. Muutamia minuutteja myöhemmin AWS vahvisti palvelun heikkeneminen US-EAST-1-kanavalla. Noin kello 11.00 yhtiö ilmoitti, että sillä oli tunnisti juuren ongelmasta DNS:n ja API:n vuorovaikutuksessa DynamoDB ja alkoi ottaa käyttöön lieventäviä toimenpiteitä.

AWS puhui noin keskipäivällä merkittävää edistystä ja ilmoitti jo keskipäivän aikana, että komponentti DNS-haittaa lievennettiinHän kuitenkin vihjasi, että ne voisivat jatkua uudelleenyritykset, jonot ja valorajoitukset samalla kun palvelut, kuten PilviTrail, Lambda tai uusien EC2-instanssien julkaisu.

Vaikutuskohteena olevat palvelut ja toimialat

Päätös vaikutti Amazonin omiin tuotteisiin, kuten Amazon.com, Prime Video y Alexa, jo suosittuja kolmannen osapuolen palveluita: Duolingo, Kangas, Snapchat, hämmennyssekä videopelejä, kuten Fortnite, Roblox o Clash RoyaleJoinakin hetkinä media ja alustat vilkkaasti liikenteessä olleista tietyistä vaaratilanteista on raportoitu.

Myös finanssisektori kärsi ongelmista siirrot ja maksut sovelluksissa ja yhdyskäytävissä (esimerkiksi Venmo Yhdysvalloissa) ja ajoittaisella vaikutuksella alustoille Crypto y välittäjät kuten Coinbase o Robin HoodKasuistiikka oli muuttumassa johtuen alue ja toimittaja.

Ammattimaisissa ympäristöissä työkalujen, kuten Satamatyöläinen o Atlassian he huomauttivat aktiiviset tapahtumat, kun taas AWS varoitti paljon virheitä kun luodaan uusia EC2-esiintymiäVahinko oli epäsäännöllinenJotkut käyttäjät eivät huomanneet mitään, kun taas toiset kokivat toistuvia käyttökatkoksia.

Espanja: mitä huomattiin

Maassamme rekisteröitiin virheitä kirjautumisen tai toimintojen suorittamisen aikana pankkisovellukset (BBVA, ING, Santander, CaixaBank), tapahtumia Operadores kuten Movistar ja Orange, ja ongelmia lentokenttäpysäköinti hallinnoi Aena AWS:stä riippuvien palveluiden häiriöiden vuoksi.

WhatsApp valokeilassa: haavoittuvuus paljastaa 3.500 miljardia numeroa

Lipunmyynnissä, Ticketmaster raportoituja ongelmia ja merkittäviä julkaisuja, kuten kiertuetta, viivästyi Van Goghin korva, joka otettiin käyttöön useita tunteja myöhemmin yleinen epävakaus infrastruktuurista tapahtuman aikana.

Lisäksi tapauksista raportoitiin maksupäätteet tietyissä ympäristöissä, mukaan lukien korttimaksujen väliaikainen keskeytys Madridin metro joka palautettiin noin iltapäivän alussa, minkä jälkeen toiminta- oli palaamassa normaaliksi.

Samanaikaisesti Redsys ilmoitti kaatumisesta osittainen ja väliaikainen omalla viestintäinfrastruktuurillaan. Maksualusta korosti, että se oli yksittäinen tapaus eikä se liity jakautumiseen AWSja että järjestelmät palautuivat täysin toimintakuntoon pian sen jälkeen.

Tekninen syy: DNS ja DynamoDB

AWS:n mukaan häiriö sai alkunsa DNS-ongelma mikä vaikutti API:n resoluutioon Amazon DynamoDB. DNS Se toimii "agendana", joka muuntaa palveluiden nimet IP-osoitteiksi: jos se epäonnistuu, palveluita ei löydy keskenään ja virheitä ja aikakatkaisuja esiintyy.

DynamoDB se on tietokanta NoSQL tehokas, matalan latenssin prosessori, jota lukemattomat sovellukset käyttävät valtavissa liikennepiikeissä. Vika sen ääripäiden ratkaisu kyseisellä alueella tarkoittaa vastausten tai pyyntöjen puutetta, jotka he eivät pääse määränpäähänsä, laukaisten ketjussa tapahtumia.

Samanaikaisesti AWS varoitti, että jotkin toiminnot jatkuvat rajallinen samalla kun niitä tyhjennettiin jonot ja palvelut, kuten PilviTrail y LambdaYritys itse suositteli tietyille asiakkaille uudelleenyrityspyynnöt ja erityistapauksissa tyhjennä DNS-välimuisti Jos ongelmat jatkuivat DynamoDB-päätepisteiden ratkaisemisessa US-EAST-1.

BCR edistää puhelin- ja internetpalveluita maan syrjäseuduilla

Reaktiot ja opetukset

Turvallisuus- ja järjestelmäasiantuntijat korostivat keskinäinen riippuvuus digitaalisen infrastruktuurin ja kriittisten kuormien keskittämisen riskin muutamalle toimittajalle: paikallinen vika voi eskaloitua maailmanlaajuinen epävakausResilienssivaatimukset monialuesuunnittelu ja realistinen vikasietoisuustestaus.

Muistettiin myös, että useimmat tapaukset ratkeavat tuntiamutta huono kokoonpano tai pieni inhimillinen virhe voi aiheuttaa laajalle levinnyt vaikutusHyvien käytäntöjen joukossa: monipuolistaminen pilviä tai ainakin jakaa kriittiset palvelut keskenään osat ja eri saatavuusvyöhykkeillä.

Mitä voit tehdä, jos se ei vieläkään onnistu

Jos ongelmat jatkuvat, muista, että niiden perimmäinen syy löytyi US-EAST-1 ja että toipuminen on ollut asteittaista; usein se riittää yritä uudelleen myöhemmin, kun jonot ovat tyhjentyneet.

Tarkista tilapaneeli AWS:n ja palveluntarjoajasi tai sovelluksesi.
Vältä kriittisiä muutoksia (esim. uudet EC2:t), kunnes palvelu on vakaa.
Jos käytät päätepisteitä DynamoDB US-EAST-1-radalla ja resoluutiovirheet jatkuvat, kokeile tyhjennä DNS-välimuisti.
Toteutus eksponentiaaliset uudelleenyritykset ja ajastimet asiakasohjelmissasi ja automaatioissasi.

Tämän jakson jättämä kuva on selkeä: DNS-häiriö US-EAST-1-alueella vaikutti API:in DynamoDB ja laukaisi ketjuongelmia kymmenissä palveluissa ja sovelluksissa, globaali vaikutus ja valitusten määrä Espanjassa on huipussaan; lieventämisen jälkeen useimmat järjestelmät Ne palasivat normaaliksi pienin rajoituksin jonojen tyhjentyessä.

Aiheeseen liittyvä artikkeli:

Älykaiuttimien viimeaikaiset ongelmat: Mitä tapahtuu, kun Alexa epäonnistuu?