Centros de Datos Internet 

¿qué pasó hoy con Amazon Web Services?

Hoy, lunes 20 de octubre de 2025, se produjo una caída masiva en algunos servicios de Amazon Web Services (AWS) que afectó a numerosas plataformas y aplicaciones a nivel mundial.

Los puntos clave son:

Origen del problema: El fallo se centró en la región US-EAST-1 de AWS, en Virginia del Norte, Estados Unidos.

Causa reportada: AWS identificó que el problema se relacionó con las altas tasas de error y latencias en las API de su servicio de base de datos Amazon DynamoDB y la resolución de DNS.

Servicios y empresas afectadas: El incidente provocó interrupciones o fallos en una gran variedad de servicios globales que dependen de AWS, incluyendo:

Plataformas como Snapchat, Fortnite, Roblox, Duolingo, Coinbase y Venmo.

Servicios de Amazon como Alexa y Ring.

Sistemas de aerolíneas como Delta Air Lines y United Airlines (afectando el check-in y reservas, aunque el problema fue resuelto rápidamente y con un impacto menor).

Estado actual: AWS comunicó que el problema subyacente de DNS fue completamente mitigado y que la mayoría de sus servicios ya están funcionando con normalidad. Sin embargo, advirtieron que algunos usuarios podrían experimentar lentitud o errores temporales debido a la acumulación de solicitudes pendientes.

Este tipo de incidentes subraya la necesidad de que las empresas, incluso las que utilizan el proveedor de nube más grande, apliquen estrategias de resiliencia y continuidad del negocio.

Aquí tienes sugerencias clave para personas y empresas:

Para Empresas (Estrategias de Resiliencia de Infraestructura)

El fallo se concentró en una sola región de AWS (US-EAST-1). La principal lección es no depender de una sola ubicación, incluso dentro de la misma nube.

A. Implementar Redundancia Geográfica

  • Multi-Zona de Disponibilidad (AZ) Obligatoria: Para aplicaciones críticas, asegúrate de que tu infraestructura esté distribuida y balanceada en múltiples Zonas de Disponibilidad (AZ) dentro de la región. Esto protege contra fallos de hardware en un centro de datos específico.
  • Multi-Región (Recomendado): Para servicios de misión crítica (como DynamoDB, que fue afectado en este incidente), considera estrategias multi-región. Esto implica tener réplicas o una capacidad mínima de tus servicios en una región de AWS diferente (ej: Europa o Asia) para una conmutación por error (failover) rápida.

B. Desarrollar y Probar el Plan de Recuperación ante Desastres (DRP)

  • Definir RTO y RPO: Establece tus Objetivos de Tiempo de Recuperación (RTO) y Objetivos de Punto de Recuperación (RPO).
    • RTO: ¿Cuánto tiempo puedes estar caído?
    • RPO: ¿Cuántos datos estás dispuesto a perder?
  • Estrategias de Recuperación: Utiliza las estrategias de DR de AWS más apropiadas para tus servicios:
    • «Pilot Light» (Luz Piloto): Mantiene la infraestructura básica en otra región lista, con datos replicados.
    • «Warm Standby» (Espera Caliente): Mantiene una versión completa, aunque a capacidad reducida, del sistema en otra región para una recuperación más rápida.
  • Pruebas Frecuentes: Un DRP que no se prueba no sirve. Realiza simulacros de «desastre» con regularidad (simula una caída regional) para garantizar que los procedimientos y la automatización funcionen.

C. Estrategia Multi-Cloud (Solo para servicios esenciales)

  • Considera la arquitectura Multi-Cloud solo para los servicios más esenciales. Esto significa usar dos o más proveedores de nube diferentes (ej: AWS y Azure o Google Cloud) para evitar la dependencia total de un solo proveedor.
  • Advertencia: La Multi-Cloud añade complejidad operativa y costos. Suele ser solo viable para empresas grandes con requerimientos extremos de disponibilidad.

D. Gestión de Backups

  • Backups Cross-Region: Asegúrate de que las copias de seguridad de tus datos críticos se repliquen automáticamente en una región de AWS diferente.

Para Personas y Clientes Finales

Aunque la responsabilidad recae en las empresas, los usuarios también pueden tomar medidas.

  • Diversificación de Herramientas: Si un servicio es crucial para tu día a día (ej. comunicación, notas, gestión financiera), considera tener una alternativa. Si usas Slack (que a veces ha fallado debido a la dependencia de AWS), ten un plan de contingencia como un grupo de WhatsApp o una cuenta de Teams para comunicarte con tu equipo durante la caída.
  • Guardar copias locales de datos críticos: No confíes ciegamente en que la «nube» lo tiene todo. Para documentos vitales, usa la nube, pero también manten una copia de seguridad en un disco duro externo o en una ubicación de almacenamiento personal.
  • Paciencia y Comunicación:
    • Si un servicio cae, consulta las cuentas oficiales de la empresa en redes sociales o su página de estado (si está disponible).
    • La mayoría de las empresas de tecnología tienen equipos trabajando inmediatamente en la solución. Evita intentar acceder repetidamente al sistema, ya que esto puede saturar el servicio y ralentizar la recuperación.

Relacionados

Dejar un comentario