¿Qué pasó?
El 20 de octubre de 2025, AWS experimentó una caída de alcance mundial que afectó a cientos de servicios esenciales — redes sociales, videojuegos, e-commerce, bancos y objetos conectados.
La región especialmente afectada: US-EAST-1 (Virginia del Norte, EE. UU.), zona estratégica de la infraestructura de AWS.
Según AWS: «tasas de error elevadas y latencias importantes para varios servicios».
Las causas identificadas
1. Fallo del DNS y de los balanceadores de carga
El origen técnico se localizó: un bug en el sistema de automatización de la gestión de DNS utilizado por DynamoDB (base de datos de AWS): un registro DNS vacío en US-EAST-1 no se reparó automáticamente.
En paralelo, un subsistema encargado de supervisar el estado de los network load balancers desencadenó una cascada de fallos.
2. Efecto dominó y dependencia central
Como tantos servicios dependen de AWS para el hosting, el almacenamiento y la distribución, lo que parece un problema «interno» se propagó a todo el ecosistema.
Además, esta caída pone de manifiesto la fragilidad de una infraestructura hoy muy centralizada en unos pocos grandes proveedores de cloud.
Impacto para empresas y usuarios
- Millones de usuarios reportaron interrupciones de acceso o tiempos de respuesta muy lentos en plataformas como Snapchat, Reddit, Fortnite, bancos y objetos conectados.
- Para las empresas clientes de AWS, esta caída supuso: pérdida de ingresos, interrupción de servicios críticos, pérdida de confianza.
- Una señal de alarma para el ecosistema: ni los gigantes del cloud están a salvo de un fallo grave.
Por qué es un problema estratégico
- Concentración de la infraestructura cloud: AWS domina con ~30 % del mercado cloud; una caída de esta magnitud demuestra que un único punto de fallo puede tener efectos globales.
- Efecto cascada: un bug en un subsistema interno (DNS, balanceo) puede degradar todo el servicio.
- Necesidad de resiliencia: muchas empresas no tenían un plan de respaldo externo o multicloud listo para entrar en juego.
- Reputación & confianza: tanto para AWS como para los clientes, la fiabilidad es un elemento clave del modelo de negocio.
Buenas prácticas y aprendizajes para las empresas
- Prever un plan de continuidad multicloud o, como mínimo, multirregión si está en AWS.
- Vigilar las dependencias ocultas: si un microservicio cloud cae, ¿cuáles son los efectos secundarios?
- Implantar pruebas de resiliencia (chaos testing, conmutaciones planificadas) para verificar que sus sistemas aguantan en caso de caída.
- Evaluar regularmente a sus proveedores cloud y su estrategia de redundancia.
- Comunicar de forma rápida y clara en caso de incidente: transparencia = confianza.
En resumen
La caída de AWS de octubre de 2025 es un recordatorio brutal de que ni siquiera las infraestructuras llamadas «cloud» son infalibles. Demuestra que la alta disponibilidad no se compra por defecto: se diseña, se planifica y se prueba. Para las empresas digitales, pensar en resiliencia es ya un imperativo.