¿qué pasó hoy con Amazon Web Services?

20/10/202520/10/2025 Alberto Marín Morán Amazon Web Services

Hoy, lunes 20 de octubre de 2025, se produjo una caída masiva en algunos servicios de Amazon Web Services (AWS) que afectó a numerosas plataformas y aplicaciones a nivel mundial.

Los puntos clave son:

Origen del problema: El fallo se centró en la región US-EAST-1 de AWS, en Virginia del Norte, Estados Unidos.

Causa reportada: AWS identificó que el problema se relacionó con las altas tasas de error y latencias en las API de su servicio de base de datos Amazon DynamoDB y la resolución de DNS.

Servicios y empresas afectadas: El incidente provocó interrupciones o fallos en una gran variedad de servicios globales que dependen de AWS, incluyendo:

Plataformas como Snapchat, Fortnite, Roblox, Duolingo, Coinbase y Venmo.

Servicios de Amazon como Alexa y Ring.

Sistemas de aerolíneas como Delta Air Lines y United Airlines (afectando el check-in y reservas, aunque el problema fue resuelto rápidamente y con un impacto menor).

Estado actual: AWS comunicó que el problema subyacente de DNS fue completamente mitigado y que la mayoría de sus servicios ya están funcionando con normalidad. Sin embargo, advirtieron que algunos usuarios podrían experimentar lentitud o errores temporales debido a la acumulación de solicitudes pendientes.

Este tipo de incidentes subraya la necesidad de que las empresas, incluso las que utilizan el proveedor de nube más grande, apliquen estrategias de resiliencia y continuidad del negocio.

Aquí tienes sugerencias clave para personas y empresas:

Para Empresas (Estrategias de Resiliencia de Infraestructura)

El fallo se concentró en una sola región de AWS (US-EAST-1). La principal lección es no depender de una sola ubicación, incluso dentro de la misma nube.

A. Implementar Redundancia Geográfica

Multi-Zona de Disponibilidad (AZ) Obligatoria: Para aplicaciones críticas, asegúrate de que tu infraestructura esté distribuida y balanceada en múltiples Zonas de Disponibilidad (AZ) dentro de la región. Esto protege contra fallos de hardware en un centro de datos específico.
Multi-Región (Recomendado): Para servicios de misión crítica (como DynamoDB, que fue afectado en este incidente), considera estrategias multi-región. Esto implica tener réplicas o una capacidad mínima de tus servicios en una región de AWS diferente (ej: Europa o Asia) para una conmutación por error (failover) rápida.

B. Desarrollar y Probar el Plan de Recuperación ante Desastres (DRP)

Definir RTO y RPO: Establece tus Objetivos de Tiempo de Recuperación (RTO) y Objetivos de Punto de Recuperación (RPO).
- RTO: ¿Cuánto tiempo puedes estar caído?
- RPO: ¿Cuántos datos estás dispuesto a perder?
Estrategias de Recuperación: Utiliza las estrategias de DR de AWS más apropiadas para tus servicios:
- «Pilot Light» (Luz Piloto): Mantiene la infraestructura básica en otra región lista, con datos replicados.
- «Warm Standby» (Espera Caliente): Mantiene una versión completa, aunque a capacidad reducida, del sistema en otra región para una recuperación más rápida.
Pruebas Frecuentes: Un DRP que no se prueba no sirve. Realiza simulacros de «desastre» con regularidad (simula una caída regional) para garantizar que los procedimientos y la automatización funcionen.

C. Estrategia Multi-Cloud (Solo para servicios esenciales)

Considera la arquitectura Multi-Cloud solo para los servicios más esenciales. Esto significa usar dos o más proveedores de nube diferentes (ej: AWS y Azure o Google Cloud) para evitar la dependencia total de un solo proveedor.
Advertencia: La Multi-Cloud añade complejidad operativa y costos. Suele ser solo viable para empresas grandes con requerimientos extremos de disponibilidad.

D. Gestión de Backups

Backups Cross-Region: Asegúrate de que las copias de seguridad de tus datos críticos se repliquen automáticamente en una región de AWS diferente.

Para Personas y Clientes Finales

Aunque la responsabilidad recae en las empresas, los usuarios también pueden tomar medidas.

Diversificación de Herramientas: Si un servicio es crucial para tu día a día (ej. comunicación, notas, gestión financiera), considera tener una alternativa. Si usas Slack (que a veces ha fallado debido a la dependencia de AWS), ten un plan de contingencia como un grupo de WhatsApp o una cuenta de Teams para comunicarte con tu equipo durante la caída.
Guardar copias locales de datos críticos: No confíes ciegamente en que la «nube» lo tiene todo. Para documentos vitales, usa la nube, pero también manten una copia de seguridad en un disco duro externo o en una ubicación de almacenamiento personal.
Paciencia y Comunicación:
- Si un servicio cae, consulta las cuentas oficiales de la empresa en redes sociales o su página de estado (si está disponible).
- La mayoría de las empresas de tecnología tienen equipos trabajando inmediatamente en la solución. Evita intentar acceder repetidamente al sistema, ya que esto puede saturar el servicio y ralentizar la recuperación.