A pesar de los mejores esfuerzos de los operadores de centros de datos de todo el mundo para reducir la cantidad de tiempo de inactividad que sufren sus instalaciones, la gravedad y el impacto financiero de las interrupciones de las granjas de servidores continúan aumentando.
Eso es según la cuarta encuesta anual de análisis de interrupciones realizada por el grupo de expertos sobre resiliencia de centros de datos Uptime Institute, que dice que las tasas de interrupciones están aumentando a pesar de la “fuerte inversión” de los operadores en tecnologías diseñadas para evitar eventos de tiempo de inactividad.
“El impacto general y el costo de las interrupciones no se reducen, como cabría esperar, sino que, de hecho, aumentan”, dijo la organización en su informe de 23 páginas. Análisis de cortes anuales. “La inversión en resiliencia distribuida y basada en la nube puede haber ayudado a reducir el impacto de las fallas a nivel del sitio, pero también ha introducido una complejidad propensa a errores. Una mejor gestión y capacitación del personal ayudaría a reducir estas fallas”.
Los conocimientos del informe se basan en un análisis de los informes disponibles públicamente sobre las interrupciones del centro de datos, así como en los datos acumulados por Uptime Institute a través de sus propias encuestas de la industria y los comentarios de los miembros.
Dijo que sus hallazgos reconocen que aunque los centros de datos son mucho más confiables de lo que solían ser, gracias a “décadas de innovación, inversión y mejor gestión”, la creciente dependencia de la sociedad en ellos significa que “las fallas importantes parecen más comunes”.
Continuó: “A pesar de esto, está claro a partir de la extensa investigación de Uptime que las interrupciones en 2021 y 2022 continúan ocurriendo a un ritmo que no es medible por debajo de años anteriores. La evidencia sugiere que la interrupción y los costos de la interrupción, de hecho, están aumentando.
“En resumen, la industria de la infraestructura crítica está luchando por lograr los altos estándares que los clientes esperan, y que están incorporados en los acuerdos de nivel de servicio”.
Sus datos revelaron que una de cada cinco organizaciones informó haber sufrido una interrupción “grave” o “grave” en los últimos tres años, lo que constituye una “ligera tendencia al alza en la prevalencia de interrupciones importantes”.
Al mismo tiempo, la proporción de apagones que le costaron a la empresa afectada más de $100 000 se ha disparado en los últimos años, con más del 60 % de fallas que ahora resultan en al menos $100 000 en pérdidas totales, lo que representa un aumento notable del 39 % en 2019.
La proporción de apagones que cuestan más de $1 millón aumentó del 11 % al 15 % durante el mismo período.
Además, la duración de los apagones es cada vez más prolongada, según el informe. “La brecha entre el comienzo de un gran apagón público y la recuperación total se ha ampliado significativamente en los últimos cinco años”, dijo. “Casi el 30 % de estos apagones en 2021 duraron más de 24 horas, un aumento preocupante de solo el 8 % en 2017”.
Los problemas de suministro de energía han sido tradicionalmente la causa más común de las interrupciones del centro de datos, pero Uptime Institute predijo en su informe de 2021 que los problemas de red se convertirán en la fuente más común de eventos de tiempo de inactividad de la granja de servidores.
El informe de 2022 respalda esta opinión y dice que las interrupciones se atribuyen cada vez más a problemas de red, software y sistemas, a medida que aumenta la escala y la complejidad de la infraestructura digital que sustenta las implementaciones de la nube empresarial.
“El uso cada vez mayor de los servicios en la nube ha cambiado las características de las interrupciones en los últimos años”, dijo el informe. “Es más probable que las fallas se deban a errores de software, sistemas o configuración, un reflejo de la creciente complejidad de la TI y las redes asociadas.
“También es más probable que estas interrupciones afecten a muchos servicios y organizaciones de TI, lo que refleja la interdependencia del sistema y la concentración de clientes que utilizan proveedores únicos, a menudo en zonas de disponibilidad única”.
El miembro fundador y director ejecutivo de Uptime Institute Intelligence, Andy Lawrence, coautor del informe, dijo que la situación mejorará con el tiempo, pero por ahora, las interrupciones persistirán.
En este punto, la organización predice, en base a los datos de tiempo de inactividad de los centros de datos públicos anteriores, que habrá al menos 20 incidentes de tiempo de inactividad de TI graves y de alto perfil en todo el mundo cada año.
“Con el tiempo, tanto la tecnología como las prácticas operativas mejorarán”, dijo Lawrence. “Pero en la actualidad, las interrupciones siguen siendo una de las principales preocupaciones de los clientes, inversores y reguladores. Los operadores estarán mejor capacitados para enfrentar el desafío con una capacitación rigurosa del personal y procedimientos operativos para mitigar el error humano detrás de muchas de estas fallas”.