Podría decirse que la integración de datos es uno de los desafíos más apremiantes en inteligencia empresarial y análisis en la actualidad.
Las organizaciones se enfrentan a aumentos aparentemente interminables en el volumen de datos que manejan. Los equipos de análisis están bajo presión para entregar información y conocimientos a la empresa más rápidamente y al mismo tiempo tratar con una gama más amplia de fuentes de datos.
A menudo, las fuentes de datos actuales están desconectadas, usan diferentes clasificaciones de datos, se entregan a diferentes velocidades y difieren ampliamente en la calidad de los datos. Sin embargo, los científicos y analistas de datos de las organizaciones necesitan combinar estas fuentes de una manera que permita a los usuarios comerciales formar una imagen de datos consistente y precisa que respalde una mejor toma de decisiones.
El volumen de datos y su velocidad significa que la integración manual es casi imposible, excepto para los proyectos y prototipos más pequeños. En cambio, las empresas buscan procesos que limpien e integren conjuntos de datos antes de pasarlos a herramientas de análisis, inteligencia comercial (BI) o incluso aprendizaje automático (ML).
Pero incluso entonces, las organizaciones deben lidiar con diferentes equipos que utilizan conjuntos de datos que se ejecutan en herramientas de integración fragmentadas pero que a menudo se superponen.
Y con diferentes enfoques de integración, que incluyen replicación, sincronización y virtualización de datos, el mercado recién ahora comienza a moverse hacia tecnologías que pueden manejar todas las necesidades de integración de datos de una empresa en un solo lugar.
“La razón más importante para la integración de datos, y una de las principales razones por las que las personas luchan con sus iniciativas de análisis de datos, es porque no integran sus datos”, advierte Ehtisham Zaidi, analista que cubre la gestión de datos en Gartner.
Aunque es difícil, esa integración es vital si las organizaciones van a recuperar su inversión en la recopilación, el almacenamiento y la gestión de sus datos en primer lugar.
Integración de datos y objetivos comerciales
Como señala Zaidi de Gartner, el intercambio de datos, dentro y fuera de la empresa, es cada vez más importante. Al igual que la necesidad de recopilar y analizar datos operativos y transaccionales, y respaldar herramientas emergentes como el aprendizaje automático y la inteligencia artificial.
Las empresas se han dedicado a recopilar volúmenes cada vez mayores de datos de sus sistemas transaccionales, aplicaciones de software como servicio (SaaS), comercio electrónico, redes sociales, sensores e Internet de las cosas (IoT). El volumen global de datos creado fue de 2ZB (zettabytes) en 2010, pero 10 años después fue de 64ZB. Para 2025 podría ser 181ZB, según analistas de Statista.
Gran parte de esos datos son en su mayoría estáticos, como la información de archivo y las copias de seguridad. Como señala Statista, el rápido crecimiento de los volúmenes de datos durante la pandemia de Covid-19 se debió, en parte, a la necesidad de que los empleados copiaran archivos para poder trabajar desde casa.
Pero eso aún deja una gran cantidad de datos “en vivo” que las organizaciones quieren procesar en su BI, análisis predictivo y otras herramientas de información, junto con los datos retenidos con fines normativos.
Las empresas de todos los sectores hablan de estar “impulsadas por datos”, ya sea que fabriquen motores a reacción o la humilde pizza. Rolls-Royce utiliza un sistema basado principalmente en los servicios en la nube de Microsoft Azure para monitorear el rendimiento del motor a reacción. Domino’s Pizza utiliza software de Talend para integrar unas 85.000 fuentes de datos.
“La integración de datos es la capacidad de capturar y transformar datos de múltiples fuentes y combinarlos para obtener información”, dice Michele Goetz, analista que cubre la gestión de datos y la inteligencia empresarial en Forrester.
La combinación de fuentes de datos permite a las empresas ver sus operaciones desde diferentes ángulos, ya sea la participación del cliente o los procesos comerciales, y hacerlo más rápido que nunca.
“Poder capturar datos desde múltiples puntos es extremadamente importante”, dice ella. “Al no capturar de múltiples fuentes, al no integrar y racionalizar esos datos juntos, hay muchos puntos ciegos en su negocio. Eso afecta su capacidad de toma de decisiones”.
Crear esta imagen completa significa tener datos precisos, limpios y compatibles. Pero si las organizaciones quieren explotar los conocimientos de sus datos, deben integrarlos de manera oportuna. Goetz clasifica esta “frescura” junto con la precisión: los datos deben ser relevantes y oportunos. Y esto significa automatizar la integración de datos.
La práctica de la integración de datos.
La forma convencional, y todavía común, de integrar datos es ETL: extraer, transformar y cargar. Aquí, los datos se traen de los sistemas dispares, se transforman (se limpian y se convierten si es necesario a una taxonomía de datos común) y luego se cargan en el siguiente sistema. Esto podría ser una base de datos, un almacén de datos o una aplicación de BI.
Pero este enfoque tiene dificultades con la creciente gama de fuentes de datos y la necesidad de respuestas cada vez más rápidas.
“La noción de que ‘siempre que pueda recopilar los datos en un almacén de datos, satisfará el 80-90 % de las necesidades’ ya no es viable, si intenta mantenerse al día con las demandas que cambian segundo a segundo. ”, dice Goetz.
Los datos corren el riesgo de perder su frescura y relevancia. En lugar de una herramienta de trabajo para el negocio, los enfoques convencionales corren el riesgo de crear un “museo de datos”, útil, tal vez, para observar el desempeño pasado, pero no para el análisis predictivo o en tiempo real.
ETL todavía tiene un papel que desempeñar en los flujos de trabajo que permiten el procesamiento por lotes o pueden ejecutarse durante la noche. Sin embargo, según Zaidi de Gartner, ETL se está complementando con lo que él llama “formas más modernas de integración de datos”. Esos son la replicación de datos, la sincronización de datos y la virtualización de datos.
Estos enfoques permiten a los analistas procesar datos sin tener que moverlos, lo que acelera el proceso, reduce la repetición del trabajo y permite una mayor flexibilidad. Además, es posible que las organizaciones deban lidiar con datos transmitidos, y las herramientas más modernas pueden integrar registros o datos de eventos.
Cualquiera que sea el enfoque que se adopte, el objetivo es crear un conjunto de datos una vez que se pueda usar muchas veces, sin reformatear ni cargar en un nuevo sistema. A su vez, esto ha creado su propio problema: una proliferación de herramientas de integración de datos.
Pero hay señales de que el mercado está comenzando a consolidarse.
Integración de datos: madurez y consolidación
En un nivel, la integración de datos es una paradoja. Reúne fuentes de datos y sistemas de TI dispares, pero los diferentes enfoques de integración han llevado a una proliferación de herramientas dispares y, a menudo, incompatibles.
Gartner, por ejemplo, afirma que “en las grandes empresas, diferentes equipos [use] diferentes herramientas, con poca consistencia, mucha superposición y redundancia, y sin una gestión o aprovechamiento común de los metadatos”.
Mike Ferguson, director gerente de Intelligent Business Strategies, describe el problema. “Si crea algo en una herramienta, no puedo tomarlo y luego ejecutarlo en otra herramienta”, dice. “Y si es una organización global, debido a que los departamentos comerciales son bastante autónomos, van y compran sus propios conjuntos de herramientas. Así que las grandes organizaciones terminan con una variedad de herramientas diferentes”.
Los proveedores se están moviendo para abordar esto a través de la consolidación del mercado. Los más conocidos por la tecnología ETL y de almacenamiento de datos están ampliando sus conjuntos de productos para incluir replicación, sincronización y virtualización.
El código abierto sigue siendo una opción para las empresas que cuentan con el tiempo y los conocimientos necesarios para crear sus propias plataformas de integración. Pero Zaidi de Gartner dice que esto rara vez es necesario. “El mercado de herramientas para usuarios finales ha madurado”, dice. “Hay proveedores maduros que brindan herramientas probadas en batalla. Todos pueden manejar estas nuevas formas de integración”.
Las empresas en el mercado incluyen a Confluent, Informatica, Talend, Tibco y los incondicionales de la industria de TI IBM y Oracle, por nombrar solo algunas.
Las empresas pueden invertir en herramientas de integración listas para usar y poner el análisis de datos en manos de usuarios comerciales y científicos de datos en lugar de equipos de TI o desarrolladores. Pero incluso con un conjunto de herramientas mejorado y mejor integrado, los desafíos persisten.
Integración de datos: los desafíos pendientes
Las herramientas de software por sí solas no abordarán todos los desafíos que plantea la integración de datos.
Las empresas que buscan maximizar el valor de sus datos comerciales aún deben abordar la calidad y la integridad de los datos, proporcionar flujos de datos consistentes y oportunos a las aplicaciones analíticas y de BI, y garantizar que los líderes comerciales actúen sobre la información de esas aplicaciones. Y necesitan hacer esto con habilidades que siguen siendo escasas.
“La calidad de los datos sigue siendo un gran problema”, dice Mike Ferguson. “Y a medida que más y más fuentes de datos están disponibles, se vuelve casi interminable”.
También hay problemas de gobernanza, porque los datos residen en más lugares, en más formatos. “Es mucho más difícil gobernar los datos de lo que solía ser porque ahora tenemos muchas fuentes”, dice.
La integración inteligente ayuda a las empresas a extraer valor de sus datos y, como señala Ferguson, la automatización ayuda a abordar el déficit de habilidades o, al menos, permite a los usuarios de la empresa que no son científicos de datos especializados comenzar a reunir fuentes de datos para su análisis.
“Se trata de acelerar el desarrollo, haciendo que más personas sean capaces de [manage data] y bajar la barra de habilidades al hacer más en el camino de la automatización”, dice.
Las herramientas también deberían brindar una mejor visibilidad de los activos de datos. Pero, por sí solos, no abordarán la calidad de los datos o los problemas de gobernanza. También se necesitan políticas de gestión de datos maestros, sólidas capacidades de ciencia de datos y, potencialmente, un director de datos (CDO) con un asiento en la junta.
“En el pasado, podía poner todos sus datos en un solo lugar”, dice Goetz de Forrester. “Teníamos los sistemas adecuados para reconocer que hay una cantidad limitada de información que necesita, y eso es lo que va a aprovechar y utilizar.
“Hoy en día, debido a la forma en que impulsamos nuestro negocio, a través de ecosistemas digitales… debe ser mucho más flexible y adaptarse para saber qué datos necesita, dónde residen esos datos y cómo integrarlos mejor, en el momento adecuado, en el momento oportuno. frescura adecuada, para que la información sea relevante”.