Tue. Aug 27th, 2024

Datos estructurados frente a no estructurados: es una forma común de categorizar las cosas. Pero no es tan simple.

Aunque los datos estructurados son fáciles de comprender, el mundo de los datos no estructurados y su transformación en datos semiestructurados más fácilmente comprensibles, utilizables y analizables es menos simple.

En este artículo, analizamos los datos estructurados, los datos no estructurados y cómo los datos semiestructurados aportan algo de orden al caos potencial. Y brinda beneficios a las organizaciones que desean obtener valor de almacenes a menudo muy grandes de documentos, imágenes, archivos de sonido, videos, publicaciones en redes sociales, etc.

Los datos estructurados tienen… estructura

La información comercial es generada principalmente por sistemas o personas. Es más probable que los datos de los sistemas estén estructurados.

En su formato tradicional, esto se caracteriza principalmente por datos en bases de datos relacionales que utilizan SQL (lenguaje de consulta estructurado). En estos, la estructura lo es todo. Las columnas que representan variables se configuran de antemano y se completan con filas de datos en las que se encuentra un valor en la intersección de cada una.

Es algo que todos podemos visualizar. Es como lo que vemos en una hoja de cálculo, aunque se debate si las hojas de cálculo son datos estructurados, pero los esquemas complejos de bases de datos SQL implican el equivalente de numerosas hojas de cálculo (tablas, en el lenguaje de las bases de datos) que se relacionan (de ahí “relacionales”) entre sí y se pueden filtrar, unir y manipular de muchas formas porque tienen elementos comunes (claves).

A pesar de la prevalencia de los datos no estructurados y el aumento de formatos que se describen mejor como semiestructurados, las bases de datos estructuradas son importantes y no desaparecerán pronto.

Son fáciles de usar, desde aplicaciones empresariales a gran escala hasta herramientas de aprendizaje automático, pero pueden estar limitados en la forma en que se accede a ellos y se usan, y pueden ser relativamente onerosos de mantener y cambiar una vez configurados inicialmente.

La masa de datos no estructurados

Los datos no estructurados a menudo son generados por personas, aunque no únicamente, e incluyen medios como imágenes y grabaciones de sonido, publicaciones en redes sociales, notas de agentes, sitios web y correos electrónicos.

Los datos no estructurados no tienen un modelo de datos predefinido y los archivos y objetos vienen en una amplia gama de tamaños, desde unos pocos kilobytes para una publicación en las redes sociales, por ejemplo, hasta terabytes potenciales para secuencias de video sin comprimir.

Las estimaciones a menudo sugieren que la gran mayoría de los datos no están estructurados: hasta el 80% o el 90% de los datos en poder de las organizaciones.

Si ese es el caso, y podemos asumir con seguridad que a menudo lo es, entonces esto presenta enormes desafíos para las organizaciones. Los datos no estructurados son, en mayor o menor medida, indefinidos y opacos para la búsqueda y clasificación.

Eso significa que es posible que las organizaciones no sepan lo que realmente hay allí, y eso puede ser un riesgo de seguridad y cumplimiento. Al mismo tiempo, significa perder oportunidades de interrogar esos datos para obtener información y valor de ellos.

¿No hay tal cosa como datos no estructurados?

Pero, de hecho, es discutible que ningún dato esté verdaderamente desestructurado. Los datos menos estructurados que pueda imaginar (archivos de imagen y sonido, por ejemplo) vienen con encabezados de metadatos que brindan información de alto nivel sobre el contenido del archivo que se puede buscar y cuestionar.

Y cada vez es más posible examinar el contenido de dichos archivos utilizando técnicas de inteligencia artificial/aprendizaje automático para, por ejemplo, examinar y categorizar el contenido de archivos de sonido y video. YouTube hace esto para garantizar que no se infrinjan los derechos de autor de la música cuando carga un video, por ejemplo, por lo que estos tipos de datos se pueden etiquetar con una nueva interrogación basada en metadatos y algoritmos, en caso de que una organización desee utilizarlos.

La revolución de los datos semiestructurados

Al mismo tiempo, existe una tendencia creciente hacia un mayor uso de formas semiestructuradas de almacenamiento de datos. Algunas formas de datos semiestructurados existen desde hace algún tiempo, como CSV y XML. Un poco más tarde vino JSON. Todos estos trajeron consigo algo así como un formato clave:valor para representar variables y valores.

Más tarde vino una amplia gama de formas de almacenar y analizar datos que no estaban restringidas por una estructura predefinida. En términos generales, estos pueden agruparse como las llamadas bases de datos NoSQL, pero hay varios tipos dentro de ese cajón de sastre.

Incluyen bases de datos de almacenes de columnas como Hadoop y Cassandra, almacenes de documentos como MongoDB y CouchDB, almacenes de valores clave como Riak, así como bases de datos de gráficos, bases de datos de objetos, etc. La lista se hace bastante larga.

Pero, lo que los une es la falta de la estructura predefinida (esquema en escritura) mediante la cual se define SQL. Por lo tanto, con estos formatos que no son SQL, potencialmente cualquier dato en cualquier formato existente, es decir, no estructurado, se puede proporcionar con una estructura (esquema en lectura) a medida que se consultan los datos. Incluso es posible incluir archivos de sonido y video, lo último en capacidad no estructurada, en cosas que se llaman bases de datos, como MongoDB (aunque existen limitaciones).

La gran ventaja de poder poner datos no estructurados en algún tipo de formato semiestructurado es que permite que surja una variedad de casos de uso, como análisis para detectar el comportamiento del consumidor, tendencias del mercado, análisis de sentimientos.

Podría decirse que el análisis de este tipo de datos brinda una visión más profunda de los usuarios. Una base de datos SQL puede contener el nombre, la fecha de nacimiento, la dirección, etc., pero el análisis de datos no estructurados, haciéndolos semiestructurados, puede acercarse a lo que piensan los consumidores.

También es posible poner algo de estructura sobre lo no estructurado y hacer uso de ella. Una fotografía del artículo entregado serían datos no estructurados, pero los metadatos del archivo de imagen podrían combinarse con información de seguimiento geográfico de los vehículos de entrega en una herramienta de inteligencia empresarial.

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *