Desde la década de 1990, las organizaciones han recopilado, procesado y analizado información comercial en almacenes de datos.
El término “almacén de datos” fue introducido en la corriente principal de TI por el científico informático estadounidense Bill Inmon en 1992, y el concepto en sí se remonta más atrás, con la fundación de Teradata en 1979 y el trabajo realizado por IBM a principios de la década de 1980.
Su objetivo era permitir que las empresas analizaran datos comerciales para mejorar la toma de decisiones, sin la necesidad de interrogar quizás a docenas de bases de datos comerciales diferentes.
Desde entonces, la tecnología ha evolucionado, permitiendo a las organizaciones procesar datos a mayor escala, velocidad y precisión.
Pero algunos comentaristas creen ahora que el almacén de datos ha llegado al final de su vida útil.
Los volúmenes de datos cada vez mayores, junto con la necesidad de procesar y analizar la información con mayor rapidez, incluso potencialmente en tiempo real, están ejerciendo presión sobre las arquitecturas de almacenamiento de datos convencionales.
Y los proveedores de almacenamiento de datos se enfrentan a la competencia de la nube. Un almacén de datos local puede costar millones de dólares, tardar meses en implementarse y, fundamentalmente, más meses en reconfigurar para nuevas consultas y nuevos tipos de datos. Los CIO ven la nube como un hogar más flexible para las herramientas de análisis.
Crecimiento exponencial de los datos comerciales
Los almacenes de datos convencionales están luchando con un crecimiento exponencial de los datos comerciales, dice Richard Berkley, experto en datos y análisis de la firma de asesoría comercial PA Consulting.
“La nube ahora ofrece mucha más escalabilidad y agilidad que los almacenes de datos convencionales”, dice.
“Las tecnologías en la nube pueden escalar dinámicamente, incorporando la potencia de procesamiento necesaria para completar consultas rápidamente solo por el tiempo de procesamiento. Ya no está pagando por una infraestructura inactiva y puede obtener un rendimiento mucho mejor, ya que el procesamiento de consultas individuales se escala mucho más allá de lo que es factible en los servicios en las instalaciones “.
Los volúmenes de datos tampoco son el único desafío al que se enfrenta el almacén de datos. Las organizaciones quieren evitar quedarse encerradas en una base de datos o tecnología de almacenamiento de datos.
Cada vez más, las empresas desean obtener información de los flujos de datos, de las redes sociales, el comercio electrónico o los sensores y el Internet de las cosas (IoT). Los almacenes de datos, con sus esquemas de datos cuidadosamente diseñados y procesos de extracción, transformación y carga (ETL), no son lo suficientemente ágiles para manejar este tipo de consultas.
“El mercado ha evolucionado”, dice Alex McMullan, director de tecnología para Europa, Oriente Medio y África del proveedor de almacenamiento Pure.
“Ya no se trata de un informe por lotes de la noche a la mañana que luego se entrega al director ejecutivo como una copia impresa en color. La gente está haciendo análisis en tiempo real y ganando dinero en el espacio “. Las aplicaciones, dice, van desde el comercio financiero de “caja negra” hasta el monitoreo de seguridad.
Vista al lago
En un momento dado, los lagos de datos parecían dispuestos a tomar el relevo de los almacenes de datos. En un lago de datos, la información se almacena en su forma sin procesar, en el almacenamiento de objetos, principalmente en la nube.
Los lagos de datos son más rápidos de configurar y operar, ya que no hay procesamiento ni limpieza de datos previos, y el lago puede contener datos estructurados y no estructurados. El procesamiento y ETL tienen lugar cuando un analista ejecuta una consulta.
Los lagos de datos se utilizan cada vez más fuera de la inteligencia empresarial tradicional, en áreas como la inteligencia artificial y el aprendizaje automático y, debido a que se alejan de la estructura rígida del almacén de datos, a veces se los cita como democratizadores de la inteligencia empresarial.
Sin embargo, tienen sus propios inconvenientes. Los almacenes de datos utilizaron su estructura para generar rendimiento y esa disciplina se puede perder con un lago de datos.
“Las organizaciones pueden acumular más datos de los que saben qué hacer”, dice Tony Baer, analista de dbInsight. “No tienen esa disciplina de un enfoque de arquitectura empresarial. Recopilamos más datos de los que necesitamos y no se están utilizando por completo “.
Para hacer frente a esto, las empresas dedican más recursos al problema, todo muy fácil de hacer con la nube, y terminan con un rendimiento “casi tan bueno como un almacén de datos, a través de la fuerza bruta”, dice.
Controlar consultas y costes
Esto puede resultar ineficaz y costoso. Baer señala que los proveedores de análisis en la nube como Snowflake están construyendo más “barreras de seguridad” para controlar las consultas y los costos. “Se están moviendo en esa dirección, pero aún es fácil seguir agregando VM [virtual machines],” él dice.
También existen almacenes de datos y lagos de datos para satisfacer los diferentes requisitos empresariales. El almacén de datos es bueno para consultas repetidas y repetidas utilizando datos limpios de alta calidad, que a menudo se ejecutan como un lote. El lago de datos admite un enfoque más ad-hoc, incluso especulativo, para interrogar la información empresarial.
“Si está haciendo consultas ‘qué pasaría si’, estamos viendo que se están utilizando lagos de datos o sistemas de gestión de documentos”, dice McMullan de Pure. Él describe esto como análisis de “cazadores recolectores”, mientras que los almacenes de datos se utilizan para análisis de “agricultura”. “El análisis de Hunter-recolector busca las preguntas que hacer, en lugar de repetir la misma pregunta”, dice.
Sin embargo, el objetivo de la industria es combinar elasticidad, velocidad y la capacidad de manejar datos transmitidos y procesamiento de consultas eficiente, todo en una plataforma.
Nuevas arquitecturas
Esto apunta a una serie de categorías nuevas y emergentes, incluida la casa del lago de datos, el enfoque adoptado por Databricks, la arquitectura de múltiples clústeres basada en la nube de Snowflake y Redshift Spectrum de Amazon, que conecta el almacén de datos Redshift del proveedor con su almacenamiento S3.
Y, aunque la industria se ha alejado en gran medida de intentar construir lagos de datos alrededor de Hadoop, otras herramientas de código abierto, como Apache Spark, están ganando terreno en el mercado.
El cambio está siendo impulsado menos por la tecnología que por los cambios en las necesidades analíticas de la empresa.
“Los requisitos de datos difieren de los de hace cinco o 10 años”, dice Noel Yuhanna, analista que cubre la gestión y el almacenamiento de datos en Forrester. “La gente está mirando la inteligencia del cliente, el análisis de cambios y el análisis de IoT.
“Existe una nueva generación de fuentes de datos, incluidos los datos de sensores y de IoT, y los almacenes de datos han evolucionado para abordar esto, [by handling] datos semiestructurados y no estructurados “.
La nube agrega elasticidad y escala, y ahorros de costos de al menos un 20%, con reducciones de costos del 50% o incluso del 70% posibles en algunas situaciones. Sin embargo, advierte que pocas empresas operan genuinamente sus sistemas de análisis a escala de petabytes: Forrester calcula que menos del 3% lo hace.
Aquellos que lo hacen se encuentran principalmente en la industria manufacturera y otras empresas altamente instrumentadas. Por su parte, podrían recurrir al procesamiento perimetral y al aprendizaje automático para reducir los flujos de datos y acelerar la toma de decisiones.
El otro cambio es el movimiento hacia el procesamiento en tiempo real, con datos de “flujo de clics” en el comercio electrónico, el entretenimiento y las redes sociales que producen flujos constantes de información que necesita un análisis inmediato, pero tiene un valor limitado a largo plazo. Las organizaciones, por su parte, solo invertirán en análisis de flujo si la empresa puede reaccionar a la información, lo que a su vez requiere altos niveles de automatización.
Esto está impulsando a los proveedores a afirmar que pueden abarcar ambos mercados, combinando la flexibilidad del lago de datos con el procesamiento estructurado del almacén de datos. Databricks, por ejemplo, dice que puede habilitar “inteligencia empresarial y aprendizaje automático en todos los datos” en su lago de datos, eliminando la necesidad de que sus clientes ejecuten arquitecturas duplicadas de almacenamiento de datos y lago de datos.
Sin embargo, no está claro si eso significa la desaparición del almacén de datos convencional.
“Sin esta casa del lago, el mundo se divide en dos partes diferentes”, dice Ali Ghodsi, director ejecutivo de Databricks. “Hay almacenes, que son en su mayoría sobre el pasado, y puedes hacer preguntas sobre ‘¿Cuáles fueron mis ingresos el último trimestre?’ Por otro lado, está la inteligencia artificial y el aprendizaje automático, que se trata del futuro. ‘¿Cuál de mis clientes va a desaparecer? ¿Se va a averiar este motor? Estas son preguntas mucho más interesantes.
“Creo que la casa del lago será el camino del futuro, y dentro de 10 años, ya no se verán realmente los almacenes de datos que se utilicen de esta manera”, dice. “Estarán presentes al igual que los mainframes, pero creo que la categoría de la casa del lago va a subsumir el almacén”.
Regreso al futuro
Sin embargo, no todo el mundo cree que el almacén de datos haya tenido su día. Como concede Ghodsi de Databricks, algunos sistemas continuarán mientras sean útiles. Y existen riesgos inherentes al cambio a nuevas plataformas, por muy prometedoras que sean. “Los lagos de datos y los nuevos modelos de infraestructura pueden ser demasiado simplistas y no solucionan el desafío de la complejidad real de administrar e integrar datos”, dice Berkley de PA Consulting.
Mucho dependerá de la información que las organizaciones necesiten de sus datos. “Los almacenes de datos y la DL son muy complementarios”, dice Jonathan Ellis, director de tecnología de Datastax. “No brindamos servicios a Twitter o Netflix desde un almacén de datos, pero no brindamos servicios a un tablero de BI desde Cassandra. [We] ejecute aplicaciones en vivo desde Cassandra y realice análisis en el almacén de datos. Lo que es emocionante en la industria es la conjunción de la tecnología de transmisión y el almacén de datos.
“Las bases de datos son pegajosas y, aunque todos en el espacio de almacenamiento de datos apoyan ampliamente a Sequel, el diablo está en los detalles”, dice. “La forma en que se diseñan los esquemas para un rendimiento óptimo difiere de un proveedor a otro”.
Él predice un modelo híbrido, que comprende software local y en la nube, de código abierto y propietario, para crear un “almacén de datos deconstruido” que sea más flexible que las ofertas convencionales y más capaz de manejar datos en tiempo real.
Otros en la industria están de acuerdo. Es probable que veamos un mercado más diverso, en lugar de que una tecnología reemplace a todas las demás, incluso si esto representa un desafío para los CIO.
Es probable que el almacén de datos continúe, al menos durante algún tiempo, como la “copia de oro” de los datos empresariales.
McMullan de Pure Storage predice que las organizaciones utilizarán almacenes, lagos y centros para ver diferentes conjuntos de datos a través de diferentes lentes. “Será mucho más difícil de lo que solía ser, con conjuntos de datos modernos y los requisitos necesarios”, dice. “Ya no se trata de lo que puede hacer en su bastidor de 42U y 19 pulgadas”.