Almacenamiento de datos no estructurados: en las instalaciones, en la nube o híbrido

Las empresas se enfrentan a la necesidad de almacenar volúmenes de información cada vez mayores, en un número cada vez mayor de formatos.

Los datos comerciales ya no se limitan a datos estructurados en bases de datos ordenadas o aplicaciones empresariales. En cambio, es posible que las empresas necesiten capturar, almacenar y trabajar con documentos, correos electrónicos, imágenes, videos, archivos de audio e incluso publicaciones en redes sociales. Todos contienen información que tiene el potencial de mejorar la toma de decisiones.

Pero esto presenta desafíos para los sistemas de TI que fueron diseñados con datos estructurados en lugar de no estructurados en mente.

Esto se debe a que las tecnologías que almacenan bases de datos de manera eficiente, por ejemplo, no se adaptan bien a los tamaños de archivo más grandes, los volúmenes de datos y las necesidades de archivo a largo plazo de los datos no estructurados.

Los analistas de la industria IDC y Gartner estiman que alrededor del 80% de los nuevos datos empresariales ahora no están estructurados. Claramente, hay un beneficio comercial en poder mantener y analizar esos datos y, en algunos casos, el almacenamiento a largo plazo es obligatorio por razones de cumplimiento.

Pero las tecnologías de almacenamiento tradicionales no fueron diseñadas ni para el volumen ni para la variedad de dichos datos.

Como señala Cesar Cid de Rivera, vicepresidente internacional de ingeniería de sistemas del proveedor Commvault, los diferentes tamaños de archivo por sí solos, por ejemplo, un archivo de video versus un documento de texto, presentan problemas para el almacenamiento. Y las empresas se enfrentan a lo que él describe como “grupos oscuros de datos”, generados o movidos automáticamente desde un sistema central al dispositivo de un usuario final, por ejemplo.

Además, los datos se generan en otros sistemas fuera de la TI convencional, como aplicaciones de software como servicio (SaaS), puntos finales de Internet de las cosas (IoT), o incluso potencialmente a partir del aprendizaje automático y la inteligencia artificial (AI). Estos datos también deben ser encontrados, indexados y almacenados.

Esto ejerce presión sobre la infraestructura de almacenamiento. Y las empresas se dan cuenta cada vez más de que un único enfoque de almacenamiento (todo en las instalaciones o todo en la nube) no ofrece el costo, la flexibilidad y el rendimiento que necesitan. Esto está generando un creciente interés en soluciones híbridas o incluso en tecnologías, como Snowflake, que están diseñadas para ser independientes del almacenamiento.

“Los criterios a considerar son el volumen, la gravedad de los datos (dónde se generan, dónde se usan, se calculan o se consumen), seguridad, ancho de banda, regulaciones, latencia, costo, tasa de cambio, transferencia requerida y costo”, dice Olivier. Fraimbault, miembro de la junta directiva de SNIA EMEA.

“El problema principal que veo no es tanto almacenar cantidades masivas de datos no estructurados, sino cómo hacer frente a la gestión de datos, en lugar de la gestión de almacenamiento de los mismos”.

No obstante, las empresas deben tener en cuenta las métricas de rendimiento del almacenamiento convencional, especialmente las E/S y la latencia, así como el precio, la resiliencia y la seguridad de cada tecnología posible.

Gestión de datos no estructurados en el sitio

El enfoque convencional para almacenar datos no estructurados en el sitio ha sido a través de un sistema de archivos jerárquico, entregado a través de almacenamiento adjunto directo en un servidor o mediante almacenamiento conectado a la red (NAS) dedicado.

Las empresas han respondido a las crecientes demandas de almacenamiento migrando a sistemas NAS más grandes y escalables. El mercado local aquí está bien atendido, con proveedores Dell EMC, NetApp, Hitachi, HPE e IBM que ofrecen tecnología NAS de gran capacidad con diferentes combinaciones de costo y rendimiento.

En general, las aplicaciones que requieren baja latencia (transmisión de medios o, más recientemente, capacitación de sistemas de inteligencia artificial) están bien atendidas por el hardware NAS basado en flash de los proveedores tradicionales.

Pero para conjuntos de datos muy grandes y la necesidad de facilitar el movimiento entre los sistemas locales y en la nube, los proveedores ahora ofrecen versiones locales de almacenamiento de objetos.

Los grandes “superescaladores” de la nube incluso ofrecen tecnología local basada en objetos para que las empresas puedan aprovechar el espacio de nombres global de los objetos y las características de protección de datos, con los beneficios de seguridad y rendimiento del almacenamiento local. Sin embargo, como advierte el SNIA, estos sistemas suelen carecer de interoperabilidad entre proveedores.

Los principales beneficios del almacenamiento local para datos no estructurados son el rendimiento, la seguridad, además del cumplimiento y el control: las empresas conocen su arquitectura de almacenamiento y pueden administrarla de manera granular.

Las desventajas son los costos, incluidos los costos iniciales, la falta de capacidad de escalar (incluso los sistemas NAS de escalamiento horizontal enfrentan cuellos de botella de rendimiento en volúmenes muy grandes) y la falta de redundancia y, posiblemente, de resiliencia.

¿Pasar a la nube?

Esto ha llevado a las empresas a considerar el almacenamiento en la nube, por razones de costos iniciales más bajos y su capacidad de escalar.

Para el almacenamiento de objetos, y casi todo el almacenamiento en la nube está basado en objetos, también existe la capacidad de manejar grandes volúmenes de datos no estructurados de manera eficiente. Un espacio de nombres global y la forma en que los metadatos y los datos están separados mejora la resiliencia.

Además, el rendimiento se está acercando al del almacenamiento local. De hecho, el almacenamiento de objetos en la nube ahora es lo suficientemente bueno para muchas aplicaciones comerciales donde la E/S y especialmente la latencia son menos críticas.

El almacenamiento en la nube reduce el costo (por adelantado) del hardware y permite un almacenamiento a largo plazo potencialmente ilimitado. Las empresas tampoco necesitan construir sistemas redundantes para la protección de datos. Esto se puede hacer dentro de los servicios del proveedor de la nube o, con la arquitectura adecuada, dividiendo los datos entre las nubes de varios proveedores.

Debido a que los datos ya están en la nube, es relativamente sencillo volver a vincularlos a nuevos sistemas, como en un escenario de recuperación ante desastres, o conectarse a nuevas aplicaciones de clientes a través de interfaces de programación de aplicaciones (API). Con S3 de Amazon, la tecnología de almacenamiento de objetos de facto, es más fácil que nunca conectar las aplicaciones empresariales a los almacenes de datos en la nube.

Y con los datos en la nube, los usuarios deberían ver pocos o ningún impacto práctico en el rendimiento a medida que se desplazan por su organización o trabajan de forma remota.

Las desventajas del almacenamiento en la nube incluyen un rendimiento más bajo que el almacenamiento en las instalaciones, especialmente para aplicaciones con muchas E/S o que no toleran la latencia, posibles dificultades de administración (cualquiera puede acelerar el almacenamiento en la nube) y posibles costos ocultos.

Aunque la nube a menudo se ve como una forma de ahorrar dinero, los costos ocultos, como los cargos por salida de datos, pueden erosionar rápidamente los ahorros de costos. Y, como advierte Fraimbault de SNIA EMEA, aunque ahora es bastante fácil mover contenedores entre nubes, esto se vuelve más difícil cuando tienen sus propios datos adjuntos.

Opciones híbridas

Como resultado, un número creciente de proveedores ahora ofrece tecnologías híbridas que pueden combinar las ventajas del almacenamiento local en las instalaciones con la tecnología de objetos y la escalabilidad de los recursos de la nube.

Este intento de crear lo mejor de ambos mundos se adapta bien a los datos no estructurados debido a su naturaleza diversa, tamaños de archivo variados y la forma en que múltiples aplicaciones pueden acceder a ellos.

Un sistema que puede manejar archivos de texto relativamente pequeños, como correos electrónicos, junto con archivos de imágenes de gran tamaño, y ponerlos a disposición de la inteligencia comercial, los sistemas de IA y los usuarios humanos con la misma eficiencia es muy atractivo para los CIO y los profesionales de la gestión de datos.

Además, las organizaciones también quieren preparar sus tecnologías de almacenamiento para el futuro para respaldar desarrollos como los contenedores. Fraimbault de SNIA ve la forma en que la nube híbrida se está moviendo hacia contenedores, en lugar de máquinas virtuales, como un impulsor clave para almacenar datos no estructurados en sistemas de almacenamiento de objetos.

La nube híbrida ofrece el potencial de optimizar los sistemas de almacenamiento de acuerdo con sus cargas de trabajo, conservando el NAS escalable, así como el almacenamiento SAN y de conexión directa, donde la aplicación y el rendimiento lo necesiten.

Pero las aplicaciones de bajo rendimiento pueden acceder a los datos en la nube, y los datos pueden moverse a la nube para almacenamiento y archivo a largo plazo. Eventualmente, los datos podrían moverse sin problemas hacia y desde la nube, y entre proveedores de la nube, sin que la aplicación o el usuario final se den cuenta.

Esto ya está sucediendo a través de tecnologías de almacenamiento de datos como Snowflake, que utiliza almacenamiento local y en la nube y el año pasado actualizó su producto para admitir datos no estructurados.

Mientras tanto, otros proveedores, como Microsoft, están aumentando su soporte para el almacenamiento híbrido a través de su servicio de integración de datos Azure Data Factory.

¿Lo mejor de todos los mundos?

Sin embargo, la idea de un almacenamiento realmente independiente de la ubicación todavía tiene mucho camino por recorrer, sobre todo porque los modelos de negocio en la nube se basan en los cargos por transferencia de datos. Esto, advierte el Enterprise Storage Forum, puede conducir a costos inflados.

De hecho, una encuesta reciente realizada por el proveedor Aptum encontró que casi la mitad de las organizaciones esperan aumentar su uso del almacenamiento en la nube convencional. Hasta el momento, no existe una tecnología única para datos no estructurados.