A menudo vemos que las definiciones conflictivas y superpuestas de los glosarios de negocios (Business Glossary), los diccionarios de datos (Data Dictionary) y los catálogos de datos (Data Catalog), así como el consenso sobre las definiciones estándar de cada uno de ellos, siguen siendo difíciles de alcanzar.

Vamos a intentar aclarar algo tirando de DMBok2 de DAMA. Este articulo podría ser de alguna forma el seguito de “Cómo evaluar una herramienta de #DataGovernance con 20 indicadores” que podéis encontrar aqui

Delante de cualquier duda y en el momento de tener que empezar a montar el Gobierno de los Datos de vuestra organización yo como siempre (para no pillarme los dedos) os recomiendo de tirar de DAMA o sea de DMBok2 para tener claro como diferenciar las cosas, más que nada porque cualquiera que reconozca este framework va a entender bien de que estamos hablando.

Parte de esta confusión viene porque diferentes software de Data Governance nos pueden confundir ya que en cada ecosistema tiene cierta diferencia, este lío se comprende fácilmente si se tiene en cuenta la forma en que la gobernanza de los datos evoluciona típicamente dentro de una organización.

A menudo puede ser eficiente comenzar con la creación de un diccionario de datos o un catálogo de datos y posteriormente elaborar un programa de gobierno de datos encima de esto. 

Este enfoque ofrece resultados rápidos en el gobierno de datos, a la vez que adopta el espíritu de “agile”’. 

Nuestra intención es entender el valor conjunto de estos activos, proporcionar definiciones específicas de cada uno, explicar cómo encajan en un programa de gobierno de datos y proporcionar ejemplos de cada uno.

Glosario de negocios (Business Glossary)

Un glosario de negocios se centra en el lenguaje de los negocios y es fácil de entender en cualquier entorno de business, desde salas de juntas hasta equipos de tecnología.

Los términos empresariales no están destinados a definir datos, metadatos, transformaciones o ubicaciones, sino más bien a definir lo que cada término significa en un sentido empresarial.

¿Qué queremos decir con una conversión? ¿Una venta? Este tipo de preguntas se pueden responder con un glosario de negocios.

Disponer de un glosario de negocios aporta una comprensión común del vocabulario utilizado en toda una organización.

El ámbito de aplicación de un glosario de negocios debe ser de toda la empresa o, al menos, de toda la división en los casos en que las diferentes divisiones tengan una terminología de negocios significativamente diferente.

Debido a su alcance y a los conocimientos técnicos necesarios, la responsabilidad del glosario empresarial recae en la empresa y no en la tecnología.

A menudo, un Data Steward o un analista empresarial tendrá esta responsabilidad exclusiva.

Cualquier tool de gobierno que se aprecie tiene que tener la posibilidad de almacenar estos datos como si de metadatos se trataras el ideal seria luego tenerlo ligados al Data Catalog.

Data Dictionary (Diccionario de datos)

Un diccionario de datos debe centrarse en las descripciones y detalles que conlleva el almacenamiento de datos está directamente ligado a los metadatos.

Debería haber un diccionario de datos para cada base de datos de la empresa. El diccionario de datos incluye detalles sobre los datos como el tipo de datos, la longitud permitida, el linaje, las transformaciones, etc.

Estos metadatos ayudan a los arquitectos, ingenieros y científicos de datos a entender cómo unir, consultar y reportar los datos, y también explica la granularidad.

Debido a la necesidad de conocimientos técnicos y metadatos, la responsabilidad de la propiedad de un diccionario de datos recae en la tecnología, frecuentemente con funciones como administradores de bases de datos, ingenieros de datos, arquitectos de datos y/o administradores de datos.

Catálogo de datos (Data Catalog)

El catálogo de datos sirve como un directorio de un solo punto para localizar información y además proporciona el mapeo entre el glosario de negocios y los diccionarios de datos.

El catálogo de datos es un activo de toda la empresa que proporciona una única fuente de referencia para la localización de cualquier conjunto de datos necesarios para diversas necesidades como las operacionales, BI, analíticas, de ciencia de los datos, etc.

Al igual que con el glosario de negocios, si una división de una empresa es significativamente diferente de otras, sería razonable que el catálogo de datos fuera exclusivo de la división y no de la empresa.

Lo más razonable sería que el catálogo de datos se desarrollara después de la creación satisfactoria tanto del glosario empresarial como de los diccionarios de datos, pero también puede ensamblarse de forma incremental a medida que los otros dos activos evolucionen con el tiempo.

Un catálogo de datos puede presentarse de diversas maneras, como una especie de “marketplace” de datos empresariales.

Este marketplace serviría como punto de distribución o acceso a todos, o a la mayoría de los conjuntos de datos certificados de empresas para diversos fines.

Debido a que el trabajo de mapeo requiere la participación de expertos tanto empresariales como técnicos, el montaje del catálogo de datos es un esfuerzo de colaboración.

Es evidente que por razones de seguridad un buen tool de gobierno tiene que definir roles de acceso y “esconder” aquellos datos que no son pertinencia de un determinado rol o analistas concreto. 

Existen diferentes enfoques a la hora de aprontar un Data Catalog, a parte las herramientas que generan y mantienen los catalogos de datos a partir de la lectura de los metadatos en las fuentes generalmente podemos diferenciar entre “Embedded Data Catalog” y las que son especificas de cada tool.

La gran diferencia es la “re-usabilidad” en el segundo caso puedes quedarte “prisonero” de tu eco-sistema y pierdes oportunidades ya que no quieres perder el trabajo hecho que se queda incrustrado en tu herramienta.

Los tools de generación automática de Data Catalog suelen estar limitado a un solo eco-sistema y no todas permite añadir información a los metadatos gestionados.

A mi forma de ver usar un tool de estas característica solo puede ser un punto de partida para luego gestionar todo con una herramienta externa.

Por supuesto, el éxito que se obtiene del ensamblaje y la utilización de estos activos de gobernanza de datos depende totalmente de otros pilares de un programa sólido de gobernanza de datos, como una iniciativa de calidad de los datos, la gestión de los datos maestros, las preocupaciones de cumplimiento y seguridad, etc. 

Michele Iurillo. Synergo

 

Autor: Michele Iurillo es es miembro de DAMA Italy y DAMA España

Imagen portada de Xenonstack.com