Amazon explicó que un error simultáneo en sistemas automatizados de AWS provocó una interrupción global que afectó a miles de servicios en línea.

Una interrupción masiva en Amazon Web Services (AWS) dejó fuera de servicio a miles de aplicaciones, plataformas y sistemas en todo el mundo el pasado lunes. Lo que comenzó como un pequeño error de sincronización entre dos programas automatizados terminó por convertirse en un apagón global que impidió pedir comida, acceder a servicios bancarios, usar redes hospitalarias o manejar dispositivos domésticos inteligentes.
Según el informe técnico publicado el jueves por Amazon, el incidente ocurrió cuando dos sistemas intentaron actualizar la misma entrada DNS al mismo tiempo, provocando que esta quedara vacía. El registro DNS funciona como una “agenda telefónica” de Internet: sin él, los dispositivos no saben cómo comunicarse con los servidores correspondientes.
“Nos disculpamos por el impacto que este evento causó a nuestros clientes. Haremos todo lo posible por aprender de este evento y mejorar aún más nuestra disponibilidad”, indicó AWS en un comunicado oficial.
La caída afectó a grandes corporaciones como Netflix, Starbucks y United Airlines, que no pudieron ofrecer temporalmente acceso a sus servicios en línea.
La ingeniera Angelique Medina, de ThousandEyes Internet Intelligence (Cisco), comparó la falla con “una guía telefónica que desaparece”.
“Las personas al otro lado de la línea estaban ahí, pero nadie sabía cómo contactarlas”, explicó.
El profesor Indranil Gupta, de la Universidad de Illinois, utilizó una analogía similar:
“Es como dos estudiantes escribiendo en el mismo cuaderno; uno rápido y otro lento. Si el rápido borra lo del lento por considerarlo obsoleto, el resultado es una página en blanco cuando llega el profesor”.
Esa “página vacía” en el sistema DNS provocó la caída de la base de datos DynamoDB, una de las más importantes de AWS. A partir de ahí, el error generó un efecto dominó sobre otros servicios, como EC2, que provee servidores virtuales, y Network Load Balancer, encargado de distribuir la carga de red.
Cuando DynamoDB volvió a estar disponible, EC2 intentó reactivar todos los servidores simultáneamente, saturando el sistema y prolongando la caída.
Medidas correctivas
Amazon aseguró que ya implementa cambios estructurales para evitar que un incidente similar vuelva a repetirse. Entre ellos:
- Corregir el “escenario de condición de carrera”, donde dos procesos sobrescriben el trabajo del otro.
- Incorporar nuevas pruebas automáticas en EC2 antes de implementar actualizaciones.
- Reforzar los protocolos de comunicación y recuperación ante fallas.
El profesor Gupta afirmó que apagones de esta magnitud son poco comunes pero inevitables en sistemas tan complejos.
“No se pueden evitar del todo, como tampoco se puede evitar que las personas se enfermen. Lo importante es cómo responde la empresa y cómo mantiene informados a sus clientes”, señaló.
La compañía reiteró su compromiso de reforzar la estabilidad y confiabilidad de su infraestructura en la nube, de la que dependen millones de usuarios y empresas a nivel mundial.