Cuando se trata de aplicaciones empresariales, el acceso a los datos, y muchos de ellos, suele ser algo bueno. Y cuanto mayor sea el volumen de datos requeridos almacenados localmente en el lugar donde se procesan, mejor para el negocio, sus aplicaciones, la toma de decisiones y, en algunos casos, el cumplimiento.
Pero la necesidad de almacenar y administrar datos también trae sus propios problemas, incluidos costos más altos, menor rendimiento del sistema y gastos generales de administración. Aquí estamos tratando con la idea de la gravedad de los datos.
Cada vez hay más pruebas de que los sistemas ricos en datos atraen más datos. Esto, a su vez, atrae aún más aplicaciones dependientes de datos, que luego atraen aún más.
La idea de la gravedad de los datos fue acuñada por primera vez por el investigador de TI Dave McCrory en 2010. Argumentó que a medida que las organizaciones recopilan datos en un solo lugar, “construyen masa”. Esa masa atrae servicios y aplicaciones, porque cuanto más cerca están de los datos, mejor es la latencia y el rendimiento.
A medida que se reúnen más datos, el proceso se acelera. Eventualmente, llega a una situación en la que se vuelve difícil o imposible mover datos y aplicaciones a otro lugar para satisfacer las necesidades de flujo de trabajo de la empresa.
Como resultado, los costos aumentan, los flujos de trabajo se vuelven menos efectivos y las empresas pueden encontrar problemas de cumplimiento. McCrory, ahora en Digital Realty, publica un índice de gravedad de datos. Él espera que la gravedad de los datos, medida en gigabytes por segundo, crezca un 139% entre 2020 y 2024. Esto ejercerá presión sobre la infraestructura de TI, dice.
En Forrester, los investigadores describen la gravedad de los datos como un fenómeno del “huevo y la gallina”. Un informe reciente sobre las tendencias de los centros de datos establece el problema.
“El concepto establece que a medida que los datos crecen en una ubicación específica, es inevitable que los datos atraigan servicios y aplicaciones adicionales debido a los requisitos de latencia y rendimiento”, dice. “Esto, en efecto, aumenta la masa de datos en la ubicación original”.
Más difícil de escalar
Los ejemplos de gravedad de datos incluyen aplicaciones y conjuntos de datos que se mueven para estar más cerca de un almacén de datos central, que podría estar en las instalaciones o en una ubicación conjunta. Esto hace un mejor uso del ancho de banda existente y reduce la latencia. Pero también comienza a limitar la flexibilidad y puede dificultar la escalabilidad para manejar nuevos conjuntos de datos o adoptar nuevas aplicaciones.
La gravedad de los datos también se produce en la nube. A medida que los almacenes de datos en la nube aumentan de tamaño, los análisis y otras aplicaciones se mueven hacia ellos. Esto aprovecha la capacidad de la nube para escalar rápidamente y minimiza los problemas de rendimiento.
Pero perpetúa el problema de la gravedad de los datos. Las tarifas de salida del almacenamiento en la nube a menudo son altas y cuantos más datos almacena una organización, más costoso es moverlos, hasta el punto en que puede ser antieconómico moverse entre plataformas.
McCrory se refiere a esto como gravedad de datos “artificiales”, causada por los modelos financieros de los servicios en la nube, más que por la tecnología.
Forrester señala que las nuevas fuentes y aplicaciones, incluido el aprendizaje automático/inteligencia artificial (IA), los dispositivos de borde o el Internet de las cosas (IoT), corren el riesgo de crear su propia gravedad de datos, especialmente si las organizaciones no planifican el crecimiento de los datos.
El crecimiento de los datos en el perímetro de la empresa plantea un desafío a la hora de localizar servicios y aplicaciones, a menos que las empresas puedan filtrar o analizar los datos in situ (o posiblemente en tránsito). Es probable que centralizar esos datos sea costoso y un desperdicio si no se necesita gran parte de ellos.
Impacto en el almacenamiento
El impacto de la gravedad de los datos en el almacenamiento es esencialmente doble: aumenta los costos y dificulta la administración. Los costos aumentarán con los requisitos de capacidad, pero es poco probable que el aumento de los sistemas locales sea lineal.
En la práctica, las empresas descubrirán que necesitan invertir en nuevas matrices de almacenamiento a medida que alcanzan los límites de capacidad, lo que podría requerir un gasto de capital costoso. Pero existe una gran posibilidad de que también tengan que invertir en otras áreas para mejorar la utilización y el rendimiento.
Esto podría implicar más almacenamiento de estado sólido o almacenamiento en niveles para mover los datos menos utilizados de los sistemas de mayor rendimiento y sistemas redundantes para garantizar la disponibilidad y herramientas de administración de almacenamiento para controlar todo el proceso.
Algunos proveedores informan que las empresas están recurriendo a sistemas hiperconvergentes, que incluyen almacenamiento, procesamiento y redes en una sola caja, para manejar las crecientes demandas de almacenamiento y equilibrar el rendimiento. Al acercar el procesamiento y los datos, los sistemas hiperconvergentes brindan proximidad y reducen la latencia. Pero nuevamente, estos sistemas son más difíciles de escalar sin problemas.
En la nube, la capacidad se escala de manera más fluida, por lo que los CIO deberían poder hacer coincidir el almacenamiento de datos con mayor precisión con los volúmenes de datos.
Sin embargo, no todas las empresas pueden poner todos sus datos en la nube, e incluso aquellos cuyos requisitos normativos y de los clientes lo permitan, deberán considerar el costo y el tiempo que lleva mover los datos.
La proximidad de los datos al procesamiento no está garantizada, por lo que las empresas necesitan arquitectos de la nube que puedan igualar la capacidad informática y de almacenamiento, así como garantizar que el almacenamiento en la nube funcione con sus aplicaciones de análisis actuales. También deben tener cuidado para evitar los costos de salida de datos, especialmente para los datos que se mueven con frecuencia a la inteligencia comercial y otras herramientas.
Las aplicaciones nativas de la nube, como Amazon QuickSight, son una opción. Otra es usar puertas de enlace en la nube y tecnologías nativas de la nube, como el almacenamiento de objetos, para optimizar los datos entre las ubicaciones locales y en la nube. Por ejemplo, Forrester ve empresas que ubican aplicaciones críticas en centros de datos con acceso directo al almacenamiento en la nube.
Al mismo tiempo, los CIO deben ser rigurosos en la gestión de costos y asegurarse de que las compras en la “nube con tarjeta de crédito” no creen sus propios puntos críticos de gravedad de datos. El tecnólogo Chris Swan ha desarrollado un modelo de costos de la gravedad de los datos, que puede brindar una imagen bastante granular, para el almacenamiento en la nube.
Tratar con la gravedad de los datos
Los CIO, analistas y proveedores están de acuerdo en que la gravedad de los datos no se puede eliminar, por lo que debe administrarse.
Para los CIO empresariales y los directores de datos, esto significa lograr un equilibrio entre demasiados y muy pocos datos. Deberían cuestionar a las empresas sobre los datos que recopilan y los datos que tienen. ¿Se necesitan todos esos datos? ¿Podrían algunos ser analizados más cerca del borde?
Abordar la gravedad de los datos también significa tener estrategias sólidas de gestión y gobierno de datos. Esto debería extenderse a la eliminación de datos innecesarios y la aplicación de niveles y archivos efectivos para reducir costos.
La nube desempeñará su papel, pero es necesario controlar los costos. Es probable que las empresas utilicen múltiples nubes, y la gravedad de los datos puede causar movimientos de datos costosos si las arquitecturas de aplicaciones y almacenamiento no están bien diseñadas. Las aplicaciones de análisis, en particular, pueden crear silos. Las empresas deben observar los conjuntos de datos que poseen y preguntarse cuáles son propensos a la gravedad de los datos. Estas son las aplicaciones que deben alojarse donde el almacenamiento puede diseñarse para escalar.
Las herramientas que pueden analizar datos in situ y eliminar la necesidad de mover grandes volúmenes pueden reducir el impacto de la gravedad de los datos y también algunas de las desventajas de costos de la nube. Esto cobra importancia cuando las organizaciones necesitan buscar conjuntos de datos en múltiples regiones de la nube, aplicaciones de software como servicio (SaaS) o incluso proveedores de la nube.
Las organizaciones también deben mirar el borde de la red para ver si pueden reducir los volúmenes de datos que se mueven al centro y, en su lugar, utilizar análisis en tiempo real sobre los flujos de datos.
Con una demanda cada vez mayor de análisis y datos comerciales, es poco probable que los CIO y CDO puedan eliminar la gravedad de los datos. Pero con fuentes de datos nuevas y emergentes como IA e IoT, al menos tienen la oportunidad de diseñar una arquitectura que pueda controlarlo.