Revelan la causa de la interrupción masiva de Internet que afectó a grandes plataformas como Amazon y Twitch

junio 10, 2021 6:33 am

–Fastly, proveedor estadounidense de servicios de computación en la nube, en un comunicado reveló la causa de la interrupción masiva de Internet que horas antes afectó a grandes plataformas como Amazon y Twitch.

El texto explica que el pasado 12 de mayo, al poner en marcha un despliegue de ‘software’, se introdujo accidentalmente un fallo que podía desencadenarse si se establecía bajo determinadas circunstancias una específica configuración de cliente.

Y en efecto, así ocurrió a primera hora del 8 de junio, cuando un cliente introdujo un cambio de configuración perfectamente válido pero que incluía las circunstancias concretas que desencadenaban el error, lo que provocó que el 85 % de su red produjera errores.

La empresa asegura que en apenas un minuto detectó la interrupción, identificó y aisló la causa y luego deshabilitó la configuración. Asimismo, precisa que solo necesitó 49 minutos para lograr que el 95 % de su red volviera a funcionar con normalidad.

«Esta interrupción fue de gran envergadura y gravedad, y lamentamos mucho la manera en que afectó a nuestros clientes y a todos los que utilizan sus servicios», afirmó Nick Rockwell, vicepresidente sénior de ingeniería e infraestructura.

Al detallar que han innovado en cambios fundamentales para la seguridad de sus plataformas subyacentes, el proveedor reconoce que si bien la interrupción ocurrió debido a unas condiciones muy concretas, tendría que haber previsto esa situación.

Fastly también destaca el hecho de que presta servicios esenciales para el funcionamiento de varias empresas y afronta con la máxima delicadeza y prioridad toda acción que pueda ocasionar problemas. «Pedimos disculpas a nuestros clientes y a los que dependen de sus servicios por la interrupción», concluye el comunicado, que da las gracias «de corazón» por el apoyo recibido por parte de la comunidad.

Estos son los términos del comunicado de Fastly:

Experimentamos una interrupción global debido a un error de software no descubierto que surgió el 8 de junio cuando fue provocado por un cambio de configuración válido del cliente. Detectamos la interrupción en un minuto, luego identificamos y aislamos la causa y deshabilitamos la configuración. En 49 minutos, el 95% de nuestra red funcionaba con normalidad.

Esta interrupción fue amplia y grave, y lamentamos mucho el impacto para nuestros clientes y todos los que dependen de ellos.

¿Qué sucedió?

El 12 de mayo, comenzamos una implementación de software que introdujo un error que podría desencadenarse por una configuración específica del cliente en circunstancias específicas.

A principios del 8 de junio, un cliente impulsó un cambio de configuración válido que incluía las circunstancias específicas que desencadenaron el error, que provocó que el 85% de nuestra red devolviera errores.

Aquí hay una línea de tiempo de la actividad del día (todas las horas están en UTC):

09:47 aparición inicial de interrupción mundial
09:48 interrupción global identificado mediante el control de Fastly
09:58 estado post se publica
10:27 de Fastly Ingeniería identificó la configuración del cliente
10:36 Servicios afectados comenzaron a recuperarse
11:00 La mayoría de los servicios se recuperaron
12: 35 Incidente mitigado
12:44 Publicación de estado resuelta
17:25 Comenzó la implementación de la corrección de errores

Una vez que se mitigaron los efectos inmediatos, centramos nuestra atención en corregir el error y comunicarnos con nuestros clientes. Creamos una solución permanente para el error y comenzamos a implementarlo a las 17:25.

¿A dónde vamos desde aquí?

A corto plazo:

Estamos implementando la corrección de errores en nuestra red de la manera más rápida y segura posible.

Estamos realizando una autopsia completa de los procesos y prácticas que seguimos durante este incidente.

Descubriremos por qué no detectamos el error durante nuestros procesos de control de calidad y prueba de software.

Evaluaremos formas de mejorar nuestro tiempo de remediación.

Hemos estado, y continuaremos, innovando e invirtiendo en cambios fundamentales para la seguridad de nuestras plataformas subyacentes. En términos generales, esto significa aprovechar al máximo las capacidades de aislamiento de WebAssembly y Compute @ Edge para desarrollar una mayor capacidad de recuperación desde cero. Continuaremos actualizando nuestra comunidad a medida que avancemos hacia este objetivo.

Conclusión

Aunque hubo condiciones específicas que desencadenaron esta interrupción, deberíamos haberlo anticipado. Brindamos servicios de misión crítica y tratamos cualquier acción que pueda causar problemas de servicio con la máxima sensibilidad y prioridad. Pedimos disculpas a nuestros clientes y a aquellos que dependen de ellos por la interrupción y agradecemos sinceramente a la comunidad por su apoyo. Los clientes siempre deben sentirse libres de enviar un correo electrónico a support@fastly.com para obtener más información. (Con información de RT y Fastly).

Deja un comentario