Data Fabric y Data Mesh, diferentes enfoques para la gestión de datos

Un resumen del whitepaper de 20 paginas sobre el argumento disponible para los socios de DAMA España a este link. 

*Grupo de arquitectura de DAMA España

Nos encontramos en un periodo de grandes cambios a nivel arquitectónico debido a diferentes factores: la proliferación de fuentes de datos no heterogéneas, la necesidad de controlar los activos y la posibilidad de el uso de APIs y el enriquecimiento de los metadatos. En este momento la tecnología ha permitido el nacimiento de dos diferentes filosofías Data Fabric y Data Mesh vamos a aclarar las diferencias y similitudes.

Normalmente cuando nos acercamos a una empresa para cualquier tipología de proyecto de datos nos encontramos con un escenario típicamente fragmentado. Muchas veces en las empresas se han ido incorporando herramientas según una lógica más bien comercial del momento histórico de la empresa. Así que es normal encontrarse con un “patchwork” de muchas herramientas diferentes. Tendremos fuentes de datos, diferentes Data Warehouse de diferentes vendedores, motores analíticos, motores de reporting, cubos OLAP y más. En la mejor de las hipótesis pueden venir de un mismo vendor, pero aun así hay unas cuantas problemáticas que hay que afrontar. ¿Cómo hacemos la automatización del flujo de trabajo? ¿Cómo gestionamos los metadatos? ¿Cómo documentamos los procesos? ¿Qué pasa con la rendición de cuentas? ¿Cómo podemos responder al regulador? Allí es cuando nos preguntamos a nivel de arquitectura que quizás deberíamos haberlo hecho de otra forma. Allí entramos en el fabuloso mundo de la Data Integration.

¿Qué es Data Fabric (Data Ops Ready Platform)?

Gartner define Data Fabric como un concepto de diseño que sirve como una capa integrada (Fabric) de datos y procesos de conexión. Un Data Fabric utiliza un análisis continuo sobre los activos de metadatos existentes para apoyar el diseño, el despliegue y la utilización de datos integrados y reutilizables en todos los entornos. Más que un hype Gartner los declaran como un must. “El enfoque de la estructura de datos puede mejorar los patrones tradicionales de gestión de datos y sustituirlos por un enfoque más receptivo. Ofrece a los responsables de D&A la posibilidad de reducir la variedad de plataformas de gestión de datos integradas y ofrecer flujos de datos interempresariales y oportunidades de integración.” (cit. Top Trends in Data and Analytics for 2021: Data Fabric Is the Foundation by Gartner ©.). 

Por ello es necesario tener un enfoque all-in-one, o sea una plataforma que pueda operar en todo el pipeline de los datos desde la ingesta hasta la explotación y la visualización de los datos. Un enfoque totalmente virtual (un sistema de LDW basado en consultas de Query) tiene la limitación de no poder materializar todos los procesos y sobre todo no permite una auditoría completa en el tiempo y en entornos altamente regulados como la banca y los seguros es un enfoque que si bien puede solucionar algún requerimiento específico no tiene cabida en procesos estructurados. El regulador no solo nos puede pedir cómo se realiza un determinado proceso de extracción y su linaje, también puede querer ver la replicación de un determinado proceso en una fecha concreta para ver todas las transformaciones y  todos los procesos que han intervenido. 

En el nombre de los Metadatos

Al menos tres de los pilares identificados por Gartner para Data Fabric, que están estrechamente interconectados, se refieren directamente a los metadatos:

 

  • Catálogo de Datos Aumentado: un catálogo de información disponible con características distintivas destinadas a apoyar un uso activo de los metadatos que pueda garantizar la máxima eficiencia de los procesos de Gestión de Datos;
  • Gráfico de conocimiento semántico: representación gráfica de la semántica y las ontologías de todas las entidades implicadas en la gestión de los activos de datos; obviamente, los componentes básicos representados en este modelo son los metadatos;
  • Metadatos activos: metadatos útiles para ser analizados con el fin de identificar oportunidades para un tratamiento y uso más fácil y optimizado de los activos de datos: archivos de registro, transacciones, inicio de sesión del usuario, plan de optimización de consultas.

¿Qué es Data Mesh?

Data Mesh es un concepto bastante nuevo dentro del panorama tecnológico, quizá no sea tan hype en este momento pero tiene la característica de “federar los silos”. En una óptica muy “DAMA oriented” que apunta a la eliminación de los silos bajo un único enfoque de Gobierno quizá sea una solución diferente e incluso en cierto modo “compatible” con un enfoque Data Fabric. Incluso Bob Seiner en las conclusiones de su artículo aclara: “En lugar de implementar Data Fabric y/o Data Mesh, independientemente del gobierno de datos, estas disciplinas complementarias son socios lógicos. Las organizaciones que buscan mejorar el valor de sus datos deben combinar los aspectos tecnológicos y de comportamiento de la gestión de datos para guiar su capacidad de centrarse en los datos y orientarse hacia ellos.” Pero vamos con orden. “El objetivo de Data Mesh es crear una base para obtener valor de los datos analíticos y de los hechos históricos a escala. La escala se aplica al cambio constante del panorama de los datos, a la proliferación tanto de las fuentes de datos como de los consumidores, a la diversidad de la transformación, al procesamiento que requieren los casos de uso, y a la velocidad de respuesta al cambio. Estos son los pilares de esta filosofía:

  • Arquitectura de datos descentralizada orientada al dominio. En Data Mesh, los datos son propiedad y están controlados por los equipos más cercanos a ellos, lo que elimina el número de pasos y traspasos entre productores y consumidores de datos.
  • Los datos se gestionan como productos. Los productos a medida hacen que los datos sean muy accesibles para los equipos que los necesitan. Esto permite a los equipos de todos los ámbitos autogestionarse y acceder a lo que necesiten de forma rápida y sencilla.
  • Infraestructura de datos de autoservicio. Los Data Mesh se construyen para permitir el autoservicio, y dan a los equipos los medios automatizados para operativizar y extraer valor de los datos sin la asistencia manual y artesanal de expertos centralizados
  • Gobernanza federada. La gobernanza se automatiza en la capa de la plataforma, lo que garantiza el cumplimiento de las normas sin afectar a la flexibilidad ni limitar el uso de los datos por parte de los distintos dominios. (Fuente: Data Mesh Principles and Logical Architecture).

 

¿Cuándo aplicar uno o el otro enfoque en arquitectura de datos?

“La arquitectura Data Mesh se originó en el concepto de situar la responsabilidad de los datos en las personas más cercanas a ellos. Los términos descentralización y distribución de la responsabilidad se encuentran en el corazón de la arquitectura de malla. Esta premisa es una conexión directa con la administración de datos, que es un principio básico de la gobernanza de datos. Las organizaciones que formalizan la responsabilidad de la definición, producción y uso de los datos como factor impulsor del gobierno de los mismos, están por delante de las organizaciones que rehúyen la administración como base de sus programas de gobierno de los datos” (fuente Associating Data Governance with Data Mesh and Data Fabric by Bob Seiner)

¿Pueden convivir los dos modelos?

Sin duda. Ambos ponen al centro de todos los conceptos de Interoperabilidad y se centran en los metadatos. Ambos pueden intercambiar información, ambos pueden cerrar definitivamente la brecha de una gestión de los activos de datos efectiva y gobernada. 

Diferencias en el rol del CDO en una arquitectura Data Mesh frente a una arquitectura Data Fabric

El papel del CDO en una organización y sus funciones  va a depender del planteamiento de cómo esa organización ve sus datos y por  ello dependerá del planteamiento seguido por la organización si éste es  Data Mesh o  Data Fabric.

En un planteamiento Data Fabric existe una gobernanza centralizada en la que los CDO son los encargados de alinear la estrategia de gestión de los datos con los objetivos de la empresa de una manera eficiente y velar por su cumplimiento. De esta manera se asegura que la organización tenga mayores posibilidades de éxito empresarial. El gobierno de datos será centralizado y  es lo que proporcionará a la empresa un enfoque global en la administración y aprovechamientos de los datos. Así es como los datos conseguirán estar perfectamente alineados con la política empresarial que se de en la organización.

Con Data Mesh pasamos de una gobernanza centralizada a una gobernanza federada en la que los dominios son los que administran los activos de datos y ello tendrá un impacto drástico en las estructuras centralizadas creadas por el CDO.  En Data Mesh la propiedad y la responsabilidad de los datos se federan en los dominios comerciales que entienden, crean y administran los datos en sí.

Data Mesh requiere una función de CDO eficaz pero a la vez diferente de la función que desempeñaba el CDO en una arquitectura Data Fabric, y  donde antes había un fuerte enfoque en la gestión de datos, ahora debe haber un mayor énfasis en el liderazgo de datos.

Conclusiones

Tanto el Data Fabric como el Data Mesh reconocen la naturaleza distribuida del gobierno y la autoridad de los datos. Los principios de diseño de cada uno pueden utilizarse de forma complementaria. Se puede construir un Data Fabric sin seguir las prácticas de la Data Mesh. Un Data Mesh debe utilizar los principios de descubrimiento y análisis que son intrínsecos a un Data Fabric para apoyar la validación de los objetos y productos de datos para presentarlos como parte del proceso de diseño.

Fuentes y bibliografía

 

Autores:

Michele Iurillo es miembro de DAMA Italy y Responsable Formación y Conocimiento de DAMA España fundador del Data Management Summit eventos de referencia en el mundo del manejo de los datos. Es actualmente Country Manager de Irion en España y Latam. Se ha ocupado de Inteligencia de Negocios durante los últimos 10 años. Ha sido Country Manager en España de TARGIT y colabora con diferentes medios de comunicación y con Dataversity, verdadera referencia mundial en el mundo de los datos. Es certificado CDMP por DAMA-I, dicta conferencias sobre la necesidad de que las empresas descubran el tesoro de los datos que sus sistemas generan a diario.

Laureano Pérez es miembro de Dama España y responsable territorial de Dama Galicia. Ha trabajado durante más de 20 años en puestos de dirección de empresas Industriales y actualmente está ligado al ámbito del dato como CEO y Owner de Datasight Consulting empresa de Consultoría de Business Analytics orientada a ayudar a sus clientes en el ámbito de la gestión y transformación del dato en conocimiento, para dar respuesta a las necesidades reales del Negocio y acompañarlas en su estrategía Data Driven. Es Ingeniero Industrial con un Master de Big Data y Business Analytics por la EOI y con el  MBA Executive de IESIDE.

Giancarlo Peralta Cruzatt es ingeniero técnico con maestría en big data & business intelligence y formación de desarrollo profesional en el área de Inteligencia Artificial. Es miembro de los grupos de arquitectura de datos y data science & machine learning en DAMA España. En los últimos años ha desarrollado su carrera profesional como consultor estratégico de tecnología en la nube y arquitecto IT en empresas como Kyndryl e IBM. 

Link whitepaper completo aqui