La analítica de datos ha evolucionado mucho en los últimos años, y las soluciones modernas actuales han dejado atrás a los antiguos “Dashboards” o cuadros de mando que ofrecen análisis descriptivos y diagnósticos correspondientes a situaciones y hechos del pasado.
Actualmente, los sistemas de análisis de datos pueden predecir situaciones, hacer recomendaciones, y avisar de aspectos clave del negocio que ocurrirán en el futuro.
Analítica de Datos
Los analistas distinguen cuatro fases en la analítica de datos que se describen en el gráfico de abajo, donde el eje de las “X” muestra el grado de dificultad, y el de las “Y” el valor añadido que proporciona cada tipo de análisis. Los análisis descriptivos y los diagnósticos (1 y 2) hacen referencia a hechos del pasado y son lo único que hasta ahora ofrecían las soluciones de Business Intelligence (BI). Los análisis predictivos y prescriptivos (3 y 4) son posibles ahora con las tecnologías de Inteligencia Artificial (IA).
Resumimos el significado y alcance de estos 4 tipos de análisis:
Análisis Descriptivos – Permiten responder a preguntas en pasado del tipo “Qué pasó …” como por ejemplo “Qué producto se vendió más ? Cuales fueron los mejores clientes el año pasado ? Qué área geográfica no llegó a sus objetivos ? Ayudan a analizar hechos históricos ocurridos en el pasado en una ventana temporal determinada
Diagnósticos - Permiten responder a preguntas del tipo “Por qué pasó …?” como por ejemplo “Por qué en la zona Norte vendimos más que en la zona Sur? Ayudan a entender las razones que provocaron determinados hechos y cómo se produjeron
Análisis Predictivos - Permiten responder a preguntas en futuro del tipo “Qué pasará …” como por ejemplo “Qué producto venderemos más ?”. Proporcionan predicciones de futuro basándose en patrones detectados en datos históricos previos.
Prescripciones - Permiten responder a preguntas del tipo “Qué haremos en este tema …” como por ejemplo “Cual es el mejor agente comercial para este cliente potencial ?”. Este tipo de análisis recomienda acciones a realizar sobre los análisis predictivos, es decir, ayuda a convertir en acciones las predicciones.
Los tradicionales cuadros de mando del BI siguen siendo de cierta utilidad en determinadas situaciones, pero las soluciones de análisis de datos innovadoras que existen en la actualidad, proporcionan formas mucho más intuitivas y eficaces de proporcionar información clave para dirigir y gestionar la empresa de forma más eficaz y basándose en ciencia. El gráfico de abajo muestra el valor para el negocio de los análisis de datos basados en IA, con respecto a los tradicionales sistemas de BI.
Tipos de Datos
Los datos estructurados son aquellos que se guardan en las bases de datos transaccionales de los sistemas empresariales como ERP, CRM, MES, SCM, RH, … Son datos con un formato específico y están normalizados. El formato de la información es rígido y está perfectamente estructurado.
A partir de la aparición del Big Data, las empresas comenzaron a descubrir el valor de trabajar con datos no estructurados (información desordenada y sin procesar que puede presentarse en forma de imágenes, videos o sonido, proceder de diferentes fuentes y llegar a diferentes velocidades).
Este tipo de datos representa el 80 - 90 % de la información disponible para las organizaciones, y proporciona un valor inmenso. No hay más que pensar en la fuente enorme de conocimiento que supone para muchas empresas años de comunicaciones por correo electrónico con clientes, grabaciones de llamadas telefónicas sobre reclamaciones, o horas de video de una línea de producción.
Las empresas modernas usan cada vez más este tipo de datos no estructurados para soportar sus operaciones y basar sus decisiones en ellos. La riqueza de información y conocimientos que se pueden extraer de ellos, es mucho mayor que si se trabaja exclusivamente con los tradicionales datos estructurados “transaccionales”.
Un ejemplo muy simple que ilustra el valor que para el negocio representan los datos no estructurados es el siguiente:
Si una empresa cuenta la cantidad de clientes que entran a diario en su tienda, y almacena esos datos como un simple número, esa información sólo le ofrecerá un dato numérico.
En cambio, si graba a sus clientes en video, además del número de clientes que entran, obtendrá todo tipo de información adicional como Género, Rango de Edad, Tipo Vestimenta, Recorridos por la tienda .. e incluso aplicando tecnologías de análisis facial, sería posible llegar a saber en qué estado de ánimo están sus clientes cuando entran por la puerta, y cómo varía su comportamiento según la hora o día de la semana por ejemplo.
Evolución de las Arquitecturas
El Business Intelligence nació en la década de los 80 y se sustentó en una arquitectura de almacenamiento de información que permitía archivar datos estructurados llamada Data Warehouse.
La información estructurada de un Data Warehouse la hace fácilmente legible, y ha sido una arquitectura tremendamente útil para las empresas durante varias décadas para la elaboración de informes y cuadros de mando con soluciones de BI.
El Big Data trajo la proliferación de datos no estructurados, y esta arquitectura no encaja bien para ellos, debido a la forma rígida y estructurada en la que almacena la información. Este hecho provocó el desarrollo de un tipo diferente de arquitectura de almacenamiento conocida como Data Lake, en donde es posible almacenar la información no estructurada en un formato abierto (su formato original), y hacerla accesible para cualquier uso inmediato o futuro.
Los datos en un Data Lake se guardan sin formato fijo, delimitados libremente y desacoplados. En comparación con un Data Warehouse ofrece mucha menos rigidez, pero también menos granularidad y consistencia.
La principal aplicación de este tipo de arquitectura ha sido dar soporte a soluciones de inteligencia artificial y machine learning.
Aunque el Data Lake es una arquitectura potente y muy ágil (sobre todo a nivel de escritura de información), presenta algunos inconvenientes. Por un lado, puede provocar que las empresas acaben teniendo más que un “lago de datos”, una “ciénaga estancada” de información sin uso, sin olvidar los problemas de gestión y privacidad. Por otro lado, resulta técnicamente complejo el desarrollo de soluciones que puedan captar y usar datos procedentes de una gran variedad de esquemas y formatos.
Para abordar estos problemas, ha surgido una arquitectura híbrida que se denomina Data Lakehouse, que pretende incorporar lo mejor de ambos modelos. El objetivo es aportar la fiabilidad y estructura del Data Warehouse y la escalabilidad y agilidad del Data Lake.
La arquitectura Data Lakehouse está diseñada para albergar datos estructurados y no estructurados utilizando un repositorio de datos, y sin necesidad de la compleja infraestructura de almacenamiento de un Data Lake.
Esta arquitectura permite aplicar a los datos no estructurados esquemas como los que se utilizan en un Data Warehouse para los datos estructurados. Con ello se mejora la lectura de información, y los usuarios pueden acceder a la información de forma más rápida y sencilla.
Los Data Lakehouses utilizan una capa de metadatos inteligentes para categorizar y clasificar los datos, que actúa como un nivel "intermedio" entre los datos no estructurados y el usuario. Con esta capa de metadatos se identifican y extraen características de los datos para poder estructurarlos de manera efectiva, y catalogarlos e indexarlos como si fueran datos estructurados y ordenados. Un ejemplo de estos metadatos inteligentes es el uso de visión artificial o algoritmos de procesamiento de lenguaje natural, para facilitar la comprensión del contenido de archivos de imagen, texto o voz, que sin esta capa de metadatos, se descargarían como datos sin procesar y sin etiquetar.
Analítica de Datos Inteligente
La riqueza de información y conocimientos que se pueden extraer de los datos no estructurados es mucho mayor que si se trabaja exclusivamente con los tradicionales datos estructurados “transaccionales”. Con la incorporación de tecnologías de Inteligencia Artificial y Machine Learning, las soluciones de análisis de datos permiten evolucionar de los tradicionales análisis descriptivos de hechos del pasado, a análisis predictivos que proporcionan un arma de mucho valor para las empresas, que están adoptando cada vez más este enfoque moderno en su analítica de datos.
En cuanto a las arquitecturas que soportan estas soluciones modernas de análisis de datos, el Data Lakehouse es la solución ideal para las organizaciones que buscan avanzar y evolucionar del BI a la IA.
A diferencia de los Data Warehouses, los Data Lakehouses son fácilmente escalables porque la integración de nuevas fuentes de datos está automatizada. No es necesario que se ajusten manualmente a los formatos y esquemas de datos de la organización, sino que son "abiertos", lo que significa que los datos se pueden consultar desde cualquier lugar utilizando cualquier herramienta, en lugar de limitarse a acceder a través de aplicaciones que sólo pueden manejar datos estructurados (como SQL).
El data lakehouse es en definitiva una versión mejorada del Data Lake que aprovecha sus ventajas (apertura y la rentabilidad), al mismo tiempo que reduce sus debilidades, aportando la fiabilidad y la estructura de un Data Warehouse.
Para la Analítica de Datos, la incorporación de IA y arquitecturas Data Lakehouse, supone avanzar hacia una empresa dirigida de forma más eficiente, basada cada vez menos en la intuición y mucho más en la “ciencia” que proporcionan los datos.
Comments