4 pasos para depurar macrodatos de lagos de datos no estructurados

Las reglas de depuración de datos se han establecido desde hace mucho tiempo para las bases de datos y los datos estructurados. ¿Podemos hacer lo mismo con el big data?

Imagen: Anadmist, Getty Images / iStockphoto

La depuración de datos es una operación que se realiza periódicamente para garantizar que los registros inexactos, obsoletos o duplicados se eliminen de una base de datos. La depuración de datos es fundamental para mantener la buena salud de los datos, pero también debe ajustarse a las reglas comerciales que los usuarios comerciales y de TI acuerden mutuamente (por ejemplo, ¿en qué fecha se debe considerar obsoleto y prescindible cada tipo de registro de datos?).

VER: Política de eliminación de datos electrónicos (TechRepublic Premium)

Es relativamente sencillo ejecutar una depuración de datos en los registros de la base de datos porque estos registros están estructurados. Tienen longitudes de registro fijas y sus claves de datos son fáciles de encontrar. Si hay dos registros de clientes para Wilbur Smith, el registro duplicado se descarta. Si hay un algoritmo que determina que Wilber E. Smith y W. Smith son la misma persona, uno de los registros se descarta.

Sin embargo, cuando se trata de big data o no estructurados, las decisiones y los procedimientos de depuración de datos se vuelven mucho más complejos. Esto se debe a que se almacenan muchos tipos de datos. Estos diferentes tipos de datos, que pueden ser imágenes, texto, registros de voz, etc., no tienen las mismas longitudes o formatos de registro. No comparten un conjunto estándar de claves de registro en los datos y, en algunos casos (por ejemplo, mantener documentos en archivo para propósitos de descubrimiento legal), los datos deben mantenerse durante períodos de tiempo muy prolongados.

Abrumados por la complejidad de tomar decisiones acertadas de purga de datos para lagos de datos con datos no alterados, muchos departamentos de TI han optado por apostar. Simplemente mantienen todos sus datos no estructurados durante un período de tiempo indeterminado, lo que aumenta sus costos de almacenamiento y mantenimiento de datos en las instalaciones y en la nube.

Una técnica que las organizaciones han utilizado en el front-end de la importación de datos es adoptar herramientas de limpieza de datos que eliminan los datos antes de que se almacenen en un lago de datos. Estas técnicas incluyen la eliminación de datos que no se necesitan en el lago de datos, o que son inexactos, incompletos o duplicados. Pero incluso con una limpieza de datos diligente por adelantado, los datos en lagos de datos desatendidos eventualmente se vuelven turbios con datos que ya no son relevantes o cuya calidad se ha degradado por otras razones.

VER: Plataforma de almacenamiento de datos Snowflake: una hoja de trucos (PDF gratuito) (TechRepublic)

¿Que haces entonces? A continuación, se incluyen cuatro pasos para depurar sus macrodatos.

1. Ejecute periódicamente operaciones de limpieza de datos en su lago de datos

Esto puede ser tan simple como eliminar cualquier espacio entre la ejecución de datos basados ​​en texto que podrían haberse originado en las redes sociales (por ejemplo, Liverpool y Liver Pool son iguales a Liverpool). Esto se conoce como función de “recorte” de datos porque está recortando espacios adicionales e innecesarios para destilar los datos en su forma más compacta. Una vez que se realiza la operación de recorte, es más fácil encontrar y eliminar datos duplicados.

2. Busque archivos de imagen duplicados

Las imágenes como fotos, informes, etc., se almacenan en archivos y no en bases de datos. Estos archivos se pueden comparar de forma cruzada convirtiendo cada imagen de archivo en un formato numérico y luego haciendo una verificación cruzada entre las imágenes. Si hay una coincidencia exacta entre los valores numéricos de los respectivos contenidos de dos archivos de imagen, entonces hay un archivo duplicado que se puede eliminar.

3. Utilice técnicas de limpieza de datos diseñadas específicamente para macrodatos.

A diferencia de una base de datos, que alberga datos del mismo tipo y estructura, un repositorio de lago de datos puede almacenar muchos tipos diferentes de datos y formatos estructurados y no estructurados sin longitudes de registro fijas. A cada elemento de datos se le asigna un identificador único y se adjunta a metadatos que brindan más detalles sobre los datos.

Existen herramientas que se pueden usar para eliminar duplicados en los repositorios de almacenamiento de Hadoop y formas de monitorear los datos entrantes que se están ingiriendo en el repositorio de datos para garantizar que no se produzca una duplicación total o parcial de los datos existentes. Los administradores de datos pueden utilizar estas herramientas para garantizar la integridad de sus lagos de datos.

4. Revisar las políticas de gobierno y retención de datos con regularidad.

Los requisitos comerciales y normativos para los datos cambian constantemente. TI debe reunirse al menos una vez al año con sus auditores externos y con el negocio final para identificar cuáles son estos cambios, cómo afectan los datos y qué efecto podrían tener estas reglas cambiantes en las políticas de retención de big data.

Ver también

Leave a Comment