El almacenamiento de macrodatos no estructurados debe formar parte de la estrategia de una empresa

Para muchas organizaciones de TI, el almacenamiento de datos es una ocurrencia tardía y no una preocupación estratégica. Sin embargo, cuando se trata de la gestión de big data, el almacenamiento debería ocupar un lugar central.

Imagen: Maxger, Getty Images / iStockphoto

Los datos no estructurados se utilizan para documentar gráficamente eventos clave, capturar documentos en papel en un formato digital de forma libre e informar sobre las operaciones de la empresa a través de sensores y otros dispositivos de Internet de las cosas. Sin embargo, una encuesta de 2020 a ejecutivos de nivel C realizada por NewVantage reveló que solo el 37,8% de las empresas encuestadas sentían que habían creado una cultura basada en datos, y más de la mitad (54,9%) sentía que no podían competir con otras empresas en las áreas. de datos y análisis.

VER: Plataforma de almacenamiento de datos Snowflake: una hoja de trucos (PDF gratuito) (TechRepublic)

“Aproximadamente el 43% de todos los datos que capturan las organizaciones no se utilizan, lo que representa un enorme valor sin explotar con respecto a los datos no estructurados. La importancia de comprender, integrar y explotar esos datos no estructurados es fundamental para la eficiencia y el crecimiento del negocio. Los datos no estructurados sirven de poco a menos que sean “, dijo Jeff Fochtman, vicepresidente senior de marketing de Seagate, que proporciona almacenamiento como servicio AWS S3. Fochtman estaba hablando sobre el desafío de administrar big data no estructurado, que dijo que representa el 90% de todos los datos en todo el mundo en 2020 según una investigación realizada por IDC.

Un problema importante es la gestión de datos. Para controlar la gestión de datos, las empresas necesitan arquitecturas de datos, herramientas, procesamiento y experiencia, pero también necesitan pensar en su estrategia de almacenamiento de big data.

Para ello, los datos no estructurados deben catalogarse y analizarse; pero la carga del costo para las empresas a menudo les impide realizar estas operaciones de procesamiento intensivo, que requieren grandes centros de datos y arquitecturas en la nube que implementan sistemas de almacenamiento de datos de muy alta capacidad que funcionan con discos duros. En segundo lugar, una vez que se procesan estos datos, deben poder replicarse y reutilizarse para que puedan enviarse a los diferentes departamentos y sitios de una empresa que necesitan diferentes tipos de datos.

“La necesidad de acceder a datos no estructurados cerca de su fuente y de moverlos, según sea necesario, a una variedad de centros de datos en la nube pública y privada para usarlos con diferentes propósitos, está impulsando el cambio de arquitecturas de TI cerradas, patentadas y en silos a arquitecturas abiertas, modelos híbridos “, dijo Fochtman.

VER: Cerrar la brecha entre los analistas de datos y el departamento de finanzas (TechRepublic)

En estos modelos híbridos, el almacenamiento de datos debe estar orquestado de modo que se almacenen diferentes tipos de datos en diferentes puntos de la empresa. Por ejemplo, los datos de IoT que en tiempo real rastrean la efectividad operativa pueden almacenarse en un servidor en una planta de fabricación en el borde de la empresa, mientras que los datos que se almacenan por razones de cumplimiento y propiedad intelectual pueden almacenarse en las instalaciones del centro de datos corporativo. .

Dado que los datos no estructurados son lo que son, no estructurados, los datos deben etiquetarse por su significado y propósito antes de que subconjuntos de ellos se puedan diseminar a diferentes puntos de la empresa que tienen diferentes necesidades de conocimiento.

La magnitud de las operaciones de almacenamiento, catalogación, seguridad y difusión de datos es abrumadora. Está haciendo que más empresas recurran al almacenamiento basado en la nube que se puede adquirir según sea necesario sin la necesidad prohibitiva de actualizar los centros de datos corporativos con unidades de almacenamiento de alta potencia.

“Todas las industrias que manejan conjuntos de datos masivos desde 100 TB hasta múltiples petabytes enfrentan desafíos de análisis y transporte de datos”, dijo Fochtman. “Por ejemplo, considere la industria de la salud. Los más de 100 TB de datos que recopila la industria son esenciales para proteger y tratar la salud mental y física de las comunidades. Escondidas dentro del formato sin procesar de esos conjuntos de datos masivos pueden haber correlaciones entre enfermedades que de otra manera no entenderíamos , un análisis más preciso de los datos sobre el cáncer u otros aprendizajes que podrían salvar vidas. Pero con tales cantidades de datos no estructurados, ¿cuál es el primer paso para obtener valor de estos datos? A menudo, es poner esos datos en movimiento “.

VER: Cómo gestionar de forma eficaz los macrodatos de almacenamiento en frío (TechRepublic)

Esto tiene sentido cuando desea obtener el máximo valor de su big data, lo que todas las empresas quieren hacer. También devuelve la conversación al almacenamiento, que a menudo se deja fuera de las agendas de planificación estratégica de TI cuando no debería.

En cambio, un enfoque estratégico debe estar en un almacenamiento ágil en cuanto a costos y ágil de datos que pueda expandirse (o reducirse) según sea necesario. El almacenamiento basado en la nube es el más adecuado para esta tarea, con una función más circunscrita para el almacenamiento en centros de datos locales, que se centrarían en retener datos altamente confidenciales para cumplimiento corporativo e IP.

También se debe prestar atención a cómo se distribuyen los datos que se gestionan.

“Vivimos en un mundo basado en datos”, dijo Fochtman. “Las empresas exitosas se dan cuenta de que si sus conjuntos de datos masivos no pueden moverse de manera ágil y rentable y si no se puede acceder fácilmente a los datos, el valor comercial se ve afectado”.

Ver también

Leave a Comment