Advance Analytics: La analitica ha cambiado

La analítica ha cambiado, las empresas no la usan mirando al pasado, sino mirando al futuro. La cultura del análisis ha matado definitivamente a los informes. La toma de decisiones necesita los datos de hoy y los de mañana.  ETL, ELT, ET(L), la Virtualización de Datos y sobre todo Data Lake y la Nube han cambiado la arquitectura de las empresas. De esto vamos a hablar en una de las próxima mesa redonda de los eventos Data Management Summit 2021

La forma en que almacenamos y gestionamos los datos ha cambiado completamente en la última década. Pasamos de un mundo ETL a un mundo ELT, con compañías como Fivetran impulsando la tendencia. Pero esto no va detenerse ahí; ELT es una transición hacia EL(T) (con EL desacoplado de T). Y para entender esto, necesitamos discernir las razones subyacentes de esta tendencia, ya que podrían mostrar lo que nos espera en el futuro.

¿Cuáles son los problemas con ETL?

Los ETL son procesos lentos, pesados, complicados y a veces un verdadero cuello de botella dentro de la analítica de datos. Parten del presupuesto que tenemos nuestros datos bien estructurados en alguna parte y necesitamos sacarlo de allí para jugar con ellos y obtener cierta información útil para la toma de decisiones. Personalmente vengo de este mundo de Copos de Nieve, Esquemas Estrellas, Cubos Olap y Rolap, normalizaciones noches pasada enfrentándome a Integration Services y Analysis Services. Hace unos años me tope con la Virtualización y todo cambió. Inicié mi colaboración con Querona desde el 2017 y aquello que parecía un tool mas, escondía una nueva filosofía. Ya entendí que no era necesario mover los datos, si podía consultarlos. Allí me di cuenta de las limitaciones del proceso ETL y de toda su filosofía, de repente me di cuenta que me había “extinguido” como consultor de BI.

Inflexibilidad

El ETL es super rígido. Obliga a los analistas de datos a conocer de antemano cada forma en que van a utilizar los datos, cada informe que van a producir. Cualquier cambio que hagan puede ser costoso. Puede afectar potencialmente a los consumidores de datos después de la extracción inicial. El departamento de TI sigue a negocio y muchas veces negocio no sabe cuales son los activos de datos de la empresa. 

La falta de visibilidad

Cada transformación realizada en los datos oscurece parte de la información subyacente. Los analistas no verán todos los datos en el almacén, sólo los que se guardaron durante la fase de transformación. Esto es arriesgado, ya que se pueden sacar conclusiones basadas en datos que no han sido cortados adecuadamente. En el momento en que quiera añadir una dimensión más hay que volver a re-diseñar todo el proceso con todo lo que esto conlleva.

La cultura del análisis ha matado definitivamente a los informes. La toma de decisiones necesita los datos de hoy y los de mañana.

 

Falta de autonomía para los analistas

Por último, pero no por ello menos importante, la construcción de una pipeline de datos basada en el ETL suele estar más allá de las capacidades técnicas de los analistas. Típicamente requiere la participación cercana de talentos de ingeniería, junto con código adicional para extraer y transformar cada fuente de datos. El movimiento de democratización de los datos ha llevado muchas herramientas de BI a mejorar este aspecto pero estamos aún lejos de poder hacer analíticas sin TI. La alternativa a un proyecto de ingeniería complejo es realizar análisis y elaborar informes sobre una base ad hoc, que requiere mucho tiempo y que, en última instancia, es insostenible. Estuve en una empresa que había creado un datamart por cada análisis tenían centenares de ellos y el conocimiento se perdía a lo largo del camino. Sin trazabilidad, sin gobierno, sin entender el gran perjuicio que esto quería decir. 

Lo que cambió y por qué el ELT es mucho mejor

Llegó la nube y lo cambió todo, almacenamiento y cómputo de alta disponibilidad han creado un nuevo escenario. El enfoque ETL fue una vez necesario debido a los altos costos de la computación y el almacenamiento en las instalaciones. Con el rápido crecimiento de los almacenes de datos basados en la nube, como Snowflake, y la caída en picado de los costos de la computación y el almacenamiento basados en la nube, hay pocas razones para seguir haciendo la transformación antes de la carga en el destino final. De hecho, dar la vuelta a los dos permite a los analistas hacer un mejor trabajo de forma autónoma.

ELT apoya la toma de decisiones ágil para los analistas

Cuando los analistas pueden cargar los datos antes de transformarlos, no tienen que determinar de antemano exactamente qué conocimientos quieren generar antes de decidir el esquema exacto que necesitan obtener y esta es una gran ventaja.

En su lugar, los datos de la fuente subyacente se replican directamente en un almacén de datos, que comprende una “única fuente de verdad”. Los analistas pueden entonces realizar transformaciones en los datos según sea necesario. Los analistas siempre podrán volver a los datos originales y no sufrirán transformaciones que puedan haber comprometido la integridad de los datos, dándoles vía libre. Esto hace que el proceso de inteligencia de negocio sea incomparablemente más flexible y seguro.

ELT promueve la “democratización” de datos en toda la compañía y algo mas

Cuando se utiliza en combinación con herramientas de inteligencia de negocios basadas en la nube, como Mode, Looker, y Tableau, el enfoque ELT también amplía el acceso a un conjunto común de análisis en todas las organizaciones. Los cuadros de mando de la inteligencia empresarial se hacen accesibles incluso para usuarios relativamente no técnicos.

Hibridación de Datalakes y Data Warehouses: por qué EL(T) es el futuro

Si tiramos de DmBok 2 según DAMA la arquitectura de datos es: “un puente entre la estrategia comercial y la ejecución de la tecnología” pero analizando más a fondo la arquitectura de datos tiene dos propósitos a un alto nivel:

  • Ayuda a los líderes de negocios a tomar mejores decisiones a través del uso de datos ( enfoque analítico)
  • Construye inteligencia de datos en aplicaciones de cara al cliente, incluso a través de machine learning (enfoque operacional)

Así que en casi todas las empresas dos ecosistemas paralelos han crecido alrededor de estos amplios casos de uso.

El Data Warehouse forma la base del ecosistema analítico. La mayoría de los almacenes almacenan datos en un formato estructurado. Están diseñados para generar conocimientos a partir de métricas comerciales básicas, generalmente con SQL.

El Data Lake es la columna vertebral del sistema operativo. Al almacenar los datos en forma bruta, ofrece la flexibilidad, la escala y el rendimiento necesarios para las aplicaciones y las necesidades de procesamiento de datos más avanzadas. Los Data Lake operan en una amplia gama de lenguajes, incluyendo Java/Scala, Python, R, y SQL.

Lo curioso es que los modernos Data Warehouses y los Data Lakes están empezando a parecerse entre sí, ya que ambos ofrecen almacenamiento de productos básicos, escalado horizontal nativo, tipos de datos semiestructurados, transacciones ACID, consultas SQL interactivas, etc. Lo que opino es que están en el camino de la convergencia. 

EL(T) soporta ambos casos de uso: Analítica y operacional ML

EL, a diferencia de ELT, desacopla completamente la parte de Extracción-Carga de cualquier transformación opcional que pueda ocurrir.

Los casos de uso operacional son todos únicos en la forma en que se aprovechan los datos entrantes. Algunos podrían utilizar un proceso de transformación único; otros podrían incluso no utilizar ninguna transformación.

En lo que respecta al caso analítico, los analistas tendrán que conseguir que los datos entrantes se normalicen para sus propias necesidades en algún momento. Pero desacoplar la EL de la T les permitiría elegir cualquier herramienta de normalización que quieran. El DBT ha estado ganando mucha tracción últimamente entre los equipos de ingeniería y ciencia de datos. Se ha convertido en el estándar de código abierto para la transformación. Incluso Fivetran se integra con ellos para que los equipos puedan usar el DBT si están acostumbrados a él. ¿Pero qué es DBT? El data build tool permite a los ingenieros analíticos transformar los datos en sus almacenes simplemente escribiendo declaraciones “select”. dbt se encarga de convertir estas declaraciones en tablas y vistas.

dbt realiza los procesos T en ELT (Extract, Load, Transform) – no extrae ni carga datos, pero es extremadamente efectivo para transformar los datos que ya están cargados en su almacén. ETB permite un nuevo enfoque y un nuevo paradigma a la hora de interactuar con los datos “no estructurados” dando una especie de estructura sin tener que operar una transformación.

EL escala más rápido y aprovecha todo el ecosistema

La transformación es donde se encuentran todos los casos límite. Para cada necesidad específica dentro de cualquier empresa, hay una normalización de esquemas única para ella, para todas y cada una de las herramientas. Poder desacoplar el EL de la T permite a la industria empezar a cubrir la larga cola de los conectores. En un mundo donde triunfan las apis y los conectores todo esto va a crecer muy rápido y de forma imparable. Empresas como CData concentran prácticamente conectores a cualquier cosa. Y recuperar lineage va a ser el próximo paso. 

Por una nueva analítica

Va ser posible empoderar los analistas, va a ser posible analizar el hoy y pensar en el futuro, va a ser posible democratizar el acceso, va a ser posible no tocar ni siquiera los datos en su origen (sobre todo con la data virtualization), el mundo de la analítica ha cambiado y quizá nosotros paladinos de los cubos olap y caballeros de analysis services estamos destinados a la extinción. Todo cambia. Para mejor, hay tanto que aprender. ¡Aprendemos!