¿qué pasó hoy con Amazon Web Services?
Hoy, lunes 20 de octubre de 2025, se produjo una caída masiva en algunos servicios de Amazon Web Services (AWS) que afectó a numerosas plataformas y aplicaciones a nivel mundial.
Los puntos clave son:
Origen del problema: El fallo se centró en la región US-EAST-1 de AWS, en Virginia del Norte, Estados Unidos.
Causa reportada: AWS identificó que el problema se relacionó con las altas tasas de error y latencias en las API de su servicio de base de datos Amazon DynamoDB y la resolución de DNS.
Servicios y empresas afectadas: El incidente provocó interrupciones o fallos en una gran variedad de servicios globales que dependen de AWS, incluyendo:
Plataformas como Snapchat, Fortnite, Roblox, Duolingo, Coinbase y Venmo.
Servicios de Amazon como Alexa y Ring.
Sistemas de aerolíneas como Delta Air Lines y United Airlines (afectando el check-in y reservas, aunque el problema fue resuelto rápidamente y con un impacto menor).
Estado actual: AWS comunicó que el problema subyacente de DNS fue completamente mitigado y que la mayoría de sus servicios ya están funcionando con normalidad. Sin embargo, advirtieron que algunos usuarios podrían experimentar lentitud o errores temporales debido a la acumulación de solicitudes pendientes.
Este tipo de incidentes subraya la necesidad de que las empresas, incluso las que utilizan el proveedor de nube más grande, apliquen estrategias de resiliencia y continuidad del negocio.
Aquí tienes sugerencias clave para personas y empresas:
Para Empresas (Estrategias de Resiliencia de Infraestructura)
El fallo se concentró en una sola región de AWS (US-EAST-1). La principal lección es no depender de una sola ubicación, incluso dentro de la misma nube.
A. Implementar Redundancia Geográfica
- Multi-Zona de Disponibilidad (AZ) Obligatoria: Para aplicaciones críticas, asegúrate de que tu infraestructura esté distribuida y balanceada en múltiples Zonas de Disponibilidad (AZ) dentro de la región. Esto protege contra fallos de hardware en un centro de datos específico.
- Multi-Región (Recomendado): Para servicios de misión crítica (como DynamoDB, que fue afectado en este incidente), considera estrategias multi-región. Esto implica tener réplicas o una capacidad mínima de tus servicios en una región de AWS diferente (ej: Europa o Asia) para una conmutación por error (failover) rápida.
B. Desarrollar y Probar el Plan de Recuperación ante Desastres (DRP)
- Definir RTO y RPO: Establece tus Objetivos de Tiempo de Recuperación (RTO) y Objetivos de Punto de Recuperación (RPO).
- RTO: ¿Cuánto tiempo puedes estar caído?
- RPO: ¿Cuántos datos estás dispuesto a perder?
- Estrategias de Recuperación: Utiliza las estrategias de DR de AWS más apropiadas para tus servicios:
- «Pilot Light» (Luz Piloto): Mantiene la infraestructura básica en otra región lista, con datos replicados.
- «Warm Standby» (Espera Caliente): Mantiene una versión completa, aunque a capacidad reducida, del sistema en otra región para una recuperación más rápida.
- Pruebas Frecuentes: Un DRP que no se prueba no sirve. Realiza simulacros de «desastre» con regularidad (simula una caída regional) para garantizar que los procedimientos y la automatización funcionen.
C. Estrategia Multi-Cloud (Solo para servicios esenciales)
- Considera la arquitectura Multi-Cloud solo para los servicios más esenciales. Esto significa usar dos o más proveedores de nube diferentes (ej: AWS y Azure o Google Cloud) para evitar la dependencia total de un solo proveedor.
- Advertencia: La Multi-Cloud añade complejidad operativa y costos. Suele ser solo viable para empresas grandes con requerimientos extremos de disponibilidad.
D. Gestión de Backups
- Backups Cross-Region: Asegúrate de que las copias de seguridad de tus datos críticos se repliquen automáticamente en una región de AWS diferente.
Para Personas y Clientes Finales
Aunque la responsabilidad recae en las empresas, los usuarios también pueden tomar medidas.
- Diversificación de Herramientas: Si un servicio es crucial para tu día a día (ej. comunicación, notas, gestión financiera), considera tener una alternativa. Si usas Slack (que a veces ha fallado debido a la dependencia de AWS), ten un plan de contingencia como un grupo de WhatsApp o una cuenta de Teams para comunicarte con tu equipo durante la caída.
- Guardar copias locales de datos críticos: No confíes ciegamente en que la «nube» lo tiene todo. Para documentos vitales, usa la nube, pero también manten una copia de seguridad en un disco duro externo o en una ubicación de almacenamiento personal.
- Paciencia y Comunicación:
- Si un servicio cae, consulta las cuentas oficiales de la empresa en redes sociales o su página de estado (si está disponible).
- La mayoría de las empresas de tecnología tienen equipos trabajando inmediatamente en la solución. Evita intentar acceder repetidamente al sistema, ya que esto puede saturar el servicio y ralentizar la recuperación.