Caída de AWS: qué ha pasado, causas y alcance real

Aventura Universal » General » Fallo masivo en AWS: origen, alcance y estado de la recuperación

La caída de AWS se originó en la región US-EAST-1 y elevó tasas de error y latencias.
La causa apuntó a problemas de DNS que afectaron a la API de DynamoDB.
Hubo impacto global en servicios de Amazon y de terceros; en España afectó a banca y telecomunicaciones.
Amazon informó de señales de recuperación a mediodía, con posibles limitaciones puntuales por acumulación.

Una interrupción a gran escala en Amazon Web Services ha provocado este lunes fallos generalizados en webs, aplicaciones, videojuegos y sistemas corporativos. El incidente se detectó alrededor de las 9:00 (hora peninsular española) y, aunque la situación empezó a estabilizarse a mediodía, la restauración completa se ha producido de forma escalonada en distintas plataformas.

El impacto fue transversal: desde servicios de la propia Amazon como altavoces inteligentes Alexa y Prime Video hasta herramientas de terceros como Perplexity, Duolingo, Canva o juegos como Fortnite, Roblox y Clash Royale. En España también se notaron incidencias en banca online (BBVA, ING, Santander y CaixaBank), operadores como Movistar y Orange, y en la venta de entradas, con Ticketmaster aplazando lanzamientos previstos.

Qué ha pasado y dónde se originó

La página oficial de estado de AWS informó de un aumento de errores y latencias que afectaba a varios servicios en US-EAST-1 (Virginia del Norte), una de sus regiones más críticas. Las investigaciones internas identificaron rápidamente una incidencia de DNS que afectaba a la resolución de la API de Amazon DynamoDB, lo que desencadenó fallos en cascada.

Según las actualizaciones de la compañía, se aplicaron medidas de mitigación y comenzaron a verse signos claros de recuperación a lo largo de la mañana. AWS indicó que el problema subyacente de DNS quedó mitigado y que, aunque la mayoría de operaciones funcionaban con normalidad, algunas peticiones podrían verse limitadas temporalmente por la acumulación de tareas.

El Modo IA de la búsqueda de Google llega a España: así cambia tu forma de buscar

Cronología de la incidencia

Las primeras alertas en portales de monitorización como Downdetector se registraron poco antes de las 9:00. Minutos después, AWS reconoció la degradación del servicio en US-EAST-1. Al filo de las 11:00, la compañía comunicó haber identificado la raíz del problema en la interacción del DNS con la API de DynamoDB y comenzó a desplegar mitigaciones.

Sobre el mediodía, AWS habló de progreso significativo y, ya avanzada la franja de mediodía, informó de que el componente de DNS estaba mitigado. No obstante, indicó que podrían persistir reintentos, colas y ligeras limitaciones mientras se normalizaban servicios como CloudTrail, Lambda o el lanzamiento de nuevas instancias EC2.

Servicios y sectores afectados

El fallo alcanzó a productos propios de Amazon como Amazon.com, Prime Video y Alexa, y a populares servicios de terceros: Duolingo, Canva, Snapchat, Perplexity, así como videojuegos como Fortnite, Roblox o Clash Royale. En algunos momentos, medios y plataformas de gran tráfico reportaron incidencias puntuales.

El ámbito financiero también se vio tocado con problemas en transferencias y pagos en apps y pasarelas (por ejemplo, Venmo en Estados Unidos) y con afectación intermitente a plataformas de cripto y brókeres como Coinbase o Robinhood. La casuística fue cambiante por región y proveedor.

En entornos profesionales, páginas de estado de herramientas como Docker o Atlassian señalaron incidentes activos, a la vez que AWS advertía de errores elevados al crear nuevas instancias EC2. La afectación fue irregular: algunos usuarios no notaron nada mientras otros sufrían cortes recurrentes.

España: qué se notó

En nuestro país se registraron fallos al iniciar sesión o completar operaciones en apps bancarias (BBVA, ING, Santander, CaixaBank), incidencias en operadores como Movistar y Orange, y problemas en aparcamientos de aeropuertos gestionados por Aena debido a la disrupción de servicios dependientes de AWS.

España acelera su apuesta por la ciencia con nuevas inversiones e infraestructuras

En la venta de entradas, Ticketmaster informó de problemas y se retrasaron lanzamientos relevantes, como la gira de La Oreja de Van Gogh, que pasó a habilitarse varias horas más tarde por la inestabilidad general de la infraestructura durante la incidencia.

Además, se comunicaron incidencias en terminales de cobro en determinados entornos, incluyendo una parada temporal de pagos con tarjeta en Metro de Madrid que se restableció alrededor de primera hora de la tarde, tras lo cual la operativa fue regresando a la normalidad.

De forma paralela, Redsys notificó una caída parcial y temporal en su propia infraestructura de comunicaciones. La plataforma de pagos recalcó que fue un incidente aislado y no vinculado a la avería de AWS, y que los sistemas se recuperaron completamente poco después.

Causa técnica: DNS y DynamoDB

Según AWS, la disrupción tuvo su origen en un problema de DNS que afectó a la resolución de la API de Amazon DynamoDB. El DNS funciona como una “agenda” que traduce nombres de servicio en direcciones IP: si falla, los servicios no se encuentran entre sí y se producen errores y tiempos de espera.

DynamoDB es una base de datos NoSQL de alto rendimiento y baja latencia usada por innumerables aplicaciones con picos de tráfico masivos. Un fallo en la resolución de sus extremos en la región afectada se traduce en falta de respuestas o peticiones que no llegan a destino, disparando incidencias en cadena.

En paralelo, AWS advirtió que algunas operaciones seguían limitadas mientras se drenaban colas y se normalizaban servicios como CloudTrail y Lambda. La propia compañía recomendó a ciertos clientes reintentar las peticiones y, en casos concretos, vaciar la caché de DNS si persistían problemas para resolver endpoints de DynamoDB en US-EAST-1.

Pilatus PC-21: así entrena España a sus nuevos aviadores

Reacciones y lecciones

Especialistas en seguridad y sistemas subrayaron la interdependencia de la infraestructura digital y el riesgo de concentrar cargas críticas en pocos proveedores: una avería localizada puede escalar a una inestabilidad global. La resiliencia exige diseño multirregión y pruebas de conmutación por error realistas.

También se recordó que la mayoría de incidentes se resuelven en horas, pero una mala configuración o un pequeño error humano puede provocar un impacto extendido. Entre las buenas prácticas: diversificar nubes o, como mínimo, distribuir servicios críticos entre regiones y zonas de disponibilidad diferentes.

Qué puedes hacer si aún te falla

Si sigues notando incidencias, recuerda que la raíz se localizó en US-EAST-1 y que la recuperación ha sido gradual; muchas veces basta con reintentar más tarde cuando se despejan las colas.

Consulta el panel de estado de AWS y el de tu proveedor o aplicación.
Evita cambios críticos (por ejemplo, lanzar nuevas EC2) hasta que el servicio esté estable.
Si usas endpoints de DynamoDB en US-EAST-1 y persisten errores de resolución, prueba a vaciar la caché DNS.
Implementa reintentos exponenciales y temporizadores en tus clientes y automatizaciones.

La fotografía que deja este episodio es clara: una incidencia de DNS en US-EAST-1 impactó en la API de DynamoDB y disparó problemas en cadena en decenas de servicios y apps, con afectación global y picos de quejas en España; tras la mitigación, la mayoría de sistemas volvieron a la normalidad con pequeñas limitaciones mientras se vaciaban las colas.