El martes, Facebook culpó de la interrupción masiva que afectó a los usuarios de Instagram, WhatsApp y Messenger en todo el mundo durante más de seis horas a lo que describió como un “error de ingeniería de nuestra propia creación”.
La interrupción, que puede haberle costado a la compañía hasta $ 100 millones en ingresos perdidos, se desencadenó cuando los ingenieros de Facebook intentaban realizar un trabajo de “mantenimiento de rutina”, escribió Santosh Janardhan, vicepresidente de infraestructura de Facebook, en una publicación de blog.
Los ingenieros emitieron un comando “con la intención de evaluar la disponibilidad de la capacidad de la red troncal global, que sin querer cortó todas las conexiones en nuestra red troncal, desconectando efectivamente los centros de datos de Facebook a nivel mundial”, dijo.
Y una herramienta que debería haber detectado el error antes de desencadenar interrupciones se vio obstaculizada por un error que le impidió intervenir, agregó.
“Este cambio provocó una desconexión completa de nuestras conexiones de servidor entre nuestros centros de datos e Internet. Y esa pérdida total de conexión provocó un segundo problema que empeoró las cosas ”, continúa la explicación de Janardhan.
Ese problema inicial provocó problemas con el DNS de Facebook, o el Sistema de nombres de dominio, que conecta los nombres de dominio a las direcciones IP correctas para que las personas puedan acceder a sitios web populares.
A principios de este año, una interrupción en un importante operador de DNS eliminó brevemente grandes extensiones de Internet.
“El resultado final fue que nuestros servidores DNS se volvieron inalcanzables a pesar de que todavía estaban operativos. Esto hizo imposible que el resto de Internet encontrara nuestros servidores ”, dijo Janardhan.
“Todo esto sucedió muy rápido”.
Se impidió al personal de Facebook responder rápidamente a la interrupción porque los propios sistemas de seguridad internos de Facebook se vieron afectados, en algunos casos, bloqueando a los empleados de áreas importantes.
“No era posible acceder a nuestros centros de datos a través de nuestros medios normales porque sus redes estaban caídas y, en segundo lugar, la pérdida total de DNS rompió muchas de las herramientas internas que normalmente usaríamos para investigar y resolver interrupciones como esta”, dijo Janardhan. .
“Así que tomó más tiempo activar los protocolos de acceso seguro necesarios para que las personas estén en el sitio y puedan trabajar en los servidores. Solo entonces podríamos confirmar el problema y volver a poner en funcionamiento nuestra columna vertebral “.
E incluso una vez que se identificó y resolvió el problema, dijo Janardhan, Facebook no podría volver a poner en línea todos sus sistemas a la vez porque podrían fallar nuevamente debido a un aumento en el tráfico.
La compañía está revisando lo sucedido y buscando formas en las que podría mejorar el proceso, agregó.
“Hemos trabajado mucho para fortalecer nuestros sistemas para evitar el acceso no autorizado, y fue interesante ver cómo ese endurecimiento nos ralentizó mientras intentábamos recuperarnos de una interrupción causada no por una actividad maliciosa, sino por un error de nuestra propia creación”. él dijo.
“Creo que una compensación como esta vale la pena: mayor seguridad diaria frente a una recuperación más lenta de un evento tan raro como este”.