Gobierno del Dato aplicado a entornos IoT, Big Data, Cloud y Blockchain (continuación)

Gobierno del Dato aplicado a entornos IoT, Big Data, Cloud y Blockchain

Introducción

En el artículo anterior Introducción al análisis de entornos IoT, Big Data, Cloud y Blockchain,
comentábamos acerca del nuevo paradigma que se presenta para el Gobierno de los Datos con
la aparición de nuevas herramientas y entornos tecnológicos como Big Data, IoT, Cloud y
Blockchain.

En el artículo se explicó cada uno de estos entornos, su grado de madurez y adopción
y también para qué (o para qué no) son recomendables.

En esta nueva entrega, profundizaremos en los gaps que existen para poder abordar los
diferentes retos que supone la implantación de una práctica formal de Gobierno de los Datos en este tipo de entornos.

En este contexto, hablamos de herramientas y entornos tecnológicos que, en algunos casos, llevan una década con nosotros y están más maduras, pero otras que están en pleno crecimiento y adolecen de capacidades que ayuden a la gestión y el gobierno de los datos.

En este sentido, a la hora de gestionar datos en cualquier tecnología no hay que olvidar la clasificación de los datos y de sus características para permitir a los consumidores tener respuesta a las siguientes preguntas:

  • ¿Qué datos existen? Teniendo que estar la respuesta alineada con las taxonomías semánticas / dominios de datos utilizadas por la organización para clasificar sus datos (ejemplo: clientes, operaciones, empleados, proveedores) y estando en la medida de lo posible en el nivel más detallado de dichas clasificaciones (ejemplo: empleados (datos personales, nóminas, cursos, asignaciones, …))
  • ¿Qué datos necesito? Inventariando el alcance de los datos (Ej. datos de clientes de España, operativa realizada por aplicaciones móviles, …).
  • ¿Con quién contactar? Identificando tanto a los productores, propietarios y responsables de los datos que podrán ayudar a los consumidores a re-confirmar la información buscada, así como al resto de implicados en la gestión de esa información (ej. equipos técnicos o de operaciones) los cuales contarán con todo el detalle de los
    diferentes aspectos de esa información en caso de dudas (cómo se genera, cuándo se actualiza, qué calidad tiene, cómo se debe consumir, …).
  • ¿De dónde procede el dato? Mostrando el origen de estos para identificar su procedencia y por consecuencia poder disponer del viaje de los mismos (trazabilidad / linaje)
  • ¿Son confiables? Recopilando las características asociadas a la calidad de los datos e incluyendo información sobre si hay planes en curso para mejorar dicha confiabilidad.
  • ¿Es información sensible y/o confidencial? Haciendo referencia a las taxonomías de seguridad para la clasificación de la información, lo cual nos ayudará a entender la sensibilidad de los datos a la hora de su consumo y/o distribución (Ej. Información pública, privada, confidencial, …), siendo este punto clave para los desafíos en base a la seguridad y privacidad de la información.
  • ¿Qué uso se puede hacer? Muy relacionado con la sensibilidad/confidencialidad de la información, pero también de forma independiente a esta taxonomía se pueden establecer criterios para restringir el uso de los datos (p.e. la limitación de uso de un cliente que no quiere que se le realicen llamadas, pero si se podrá consumir su información para gestión interna).
  • ¿Está afectado por alguna regulación/normativa y/o es utilizada en informes de
    gestión? Identificará si los datos están afectados por alguna regulación/normativa específica (Ej. GDPR para datos personales), se utilizan en informes regulatorios que tenga que generar la organización, son usados para la generación de informes de gestión que utilizará la organización para la toma de decisiones a alto nivel.
  • ¿Qué periodicidad? Mostrando la frecuencia con la que se generan y actualizan los datos, disponiendo en la medida de lo posible la información relativa a la última vez que se generaron los datos.

Las preguntas expuestas anteriormente aplican independientemente de la tecnología utilizada, siendo clave asegurar que la clasificación/características (metadato) de estos se realice correctamente para que dichos metadatos transmitan “confianza” a los consumidores de la información y evitar así que los lagos de datos se conviertan en auténticos lodazales con muchos datos, pero con poca información.

Big Data

“Tengo un proyecto en Big Data. ¿Qué desafíos tengo que abordar en Gobierno del
Dato?”

El principal desafío se podría resumir a través del slogan “muchos datos y pocos metadatos”.

Se puede decir que los proyectos en entornos Big Data, los cuales por definición gestionan grandes volúmenes de datos, por un lado “sufren” a la hora de identificar los datos que consumirán sus procesos, principalmente cuando son datos que no han consumido nunca o cuando no son productores de los datos y por otro lado “ayudan al sufrimiento” de terceros al no metadatar (clasificar/etiquetar) debidamente los nuevos datos que generen sus procesos y que podrán ser consumidos por terceros.

La identificación de datos es una de las etapas que más tiempo puede consumir en los proyectos, convirtiéndose en crítica, y es donde el Gobierno del Dato puede ayudar a optimizar lo máximo posible los recursos dedicados a esta etapa a través de la identificación de los diferentes datos que existen en la organización y sus características.

Como se puede intuir, mucha de la información relativa a los metadatos (clasificación /características) necesitará de la implicación de los equipos, los cuales quizás no tengan actualmente su prioridad en estas actividades, por lo que desde la función de gobierno de datos se tendrá que profundizar en cómo motivar a los equipos para transmitirles y que comprendan lo crítico que son los metadatos (clasificación / características de los datos), siendo una palanca clave la empatía hacia los futuros consumidores de la información.

“¿Cómo ayuda DAMA a abordar estos desafíos?”

Big Data es un entorno tecnológico bastante maduro y prueba de ello es que DAMA dedica su capítulo 14 a “Big Data y Ciencia de Datos” donde encontraréis los siguientes bloques asociados:

1. Introducción: Motivadores de negocio, principios y conceptos esenciales.
2. Actividades: Definir la estrategia del Big Data y las necesidades del negocio, seleccionar
las fuentes de datos, adquirir e ingestar fuentes de datos, desarrollar hipótesis y
modelos de datos, integrar/alinear datos para el análisis, explorar datos usando
modelos y desplegar y monitorear.
3. Herramientas: Tecnologías y arquitecturas MPP, bases de datos distribuidas basadas en
archivos, algoritmos en base de datos, soluciones en la nube de Big Data, computación
estadística y lenguajes gráficos y herramientas de visualización de datos.
4. Técnicas: Modelos analíticos y modelado Big Data.
5. Guías de implementación: Alineación de la estrategia, evaluación de la preparación /
evaluación de riesgos, organización y cambio cultural.
6. Big Data y Gobierno de Ciencia de Datos: Gestión de mecanismos de visualización,
ciencia de datos y estándares de visualización, seguridad de los datos, metadatos,
calidad de los datos y métricas.

Adicional a dicho capítulo, los siguientes capítulos transversales a cualquier entorno tecnológico
son de lectura obligatoria:

  • Capítulo 3: Gobierno de Datos
  • Capítulo 4: Arquitectura de Datos
  • Capítulo 12: Gestión de Metadatos

Servicios Cloud

“Tengo un proyecto en Cloud. ¿Qué desafíos tengo que abordar en Gobierno del
Dato?”

Dado que la nube pública es una plataforma completamente compartida por definición, e incluso las nubes privadas o híbridas se comparten parcialmente, es imperativo que las empresas se aseguren de que los proveedores de servicios en la nube cuenten con sólidas prácticas de gobernanza de datos. Ninguna empresa quiere comprometer su preciado activo: los datos.

En los proyectos que se construyan sobre servicios Cloud, es importante tener en cuenta los siguientes aspectos:

● Grandes volúmenes de datos de múltiples fuentes que resultan en inconsistencias de datos.
● Baja calidad de datos.
● Necesidad de políticas estandarizadas de acceso a datos.
● El auge de los análisis de autoservicio y la «democratización de los datos» en toda la empresa.
● Requisitos de cumplimiento normativo, como GDPR.
● La necesidad crítica de un vocabulario de datos común para el análisis de datos interdepartamental.
● La necesidad de mejorar los metadatos organizacionales.

“¿Cómo ayuda DAMA a abordar estos desafíos?”

Para cada uno de los retos, el DMBOK tiene uno o varios capítulos que dan orientación a cómo
abordarlos.

Grandes volúmenes de datos de múltiples fuentes: Dado que este es un reto compartido con los entornos Big Data, todo lo comentado anteriormente aplica de igual manera. Además, en el capítulo de Arquitectura de Datos se explica cómo deben definirse las actividades y roles para preparar a la organización en el uso de servicios Cloud. En este contexto, el tener bien definido el Modelo de Datos Empresarial (EDM) y Diseño de Flujo de Datos, es clave para una buena implantación. Por otro lado, los datos se extraerán de los sistemas actuales, lo que implica movimiento, réplica o federación de datos. En el capítulo de Integración de Datos e Interoperabilidad se tratan estos
temas y se dan diferentes alternativas para poder realizarlo correctamente con garantías. Por último, el capítulo Almacenamiento de Datos y Operaciones trata las fases de diseño, implementación y soporte de los datos almacenados, para maximizar su valor a lo largo de todo su ciclo de vida, lo cual cobra especial relevancia en entornos Cloud.

Baja calidad: Como es lógico, DAMA tiene un capítulo completo que trata todos los aspectos de Calidad. En este punto te recomendamos que leas el artículo de nuestros compañeros del Grupo de Trabajo de Calidad del Dato que te ayudará a comprender los beneficios y los retos de tener datos con calidad.

Políticas estandarizadas de acceso a datos y cumplimiento normativo:

El acceso unificado es uno de los retos más importante de cara a cumplir con las normativas de seguridad, tales como GDPR o CCPA. Para ello, DAMA comprende dos capítulos muy importantes: Seguridad y Manejo Ético de los Datos, ambos centrados en minimizar el riesgo de incumplir con las normativas vigentes y con la concienciación de las personas en el uso de datos.

Democratización del dato: Los servicios Cloud dan una respuesta bastante completa ante la necesidad del autoservicio de datos. Además de los capítulos anteriores  mencionados de Seguridad y Ética, DAMA alinea estas iniciativas con la explotación de datos en el capítulo de Data Warehousing e Inteligencia de Negocio. En este capítulo
se explican varias actividades necesarias en el ciclo de vida de los proyectos para poder disponer de los datos de forma rápida y fiable.

Vocabulario común y metadatos organizacionales: DAMA desarrolla en el capítulo de Gestión de Metadatos las actividades de planificación, ejecución y control para permitir el acceso a metadatos integrados y de alta calidad que incluyen definiciones, modelos, flujos de datos y otra información crítica para comprender los datos y el sistema a través del cual se crean, se mantienen y se accede a ellos.

IoT (Internet of Things)

“Tengo un proyecto en IoT. ¿Qué desafíos tengo que abordar en Gobierno del Dato?”

Desde un punto de vista agnóstico, el Gobierno de los Datos en entornos IoT comprende las mismas actividades que el de los entornos tradicionales en cualquier organización. Así pues, se incluye la recopilación de datos, el control, reporte y mejora continua de la calidad, el almacenamiento y su procesamiento hasta su consumo, ya sea mediante reporting tradicional o mediante técnicas de analítica avanzada.

Sin embargo, las soluciones en entornos IoT deben abordar algunas áreas o ámbitos adicionales en el ciclo de vida de los datos:

● Decidir qué perímetros de datos se recopilarán a través de los sensores o dispositivos.
● Enviar los datos a la nube a través de una red y luego almacenarlos en una plataforma Cloud.
● Analizar los datos para predecir u optimizar resultados.
● Distribuir los datos a consumidores u otras aplicaciones, siguiendo estándares de integración e interoperabilidad.
● Administrar la privacidad y la seguridad de los datos a lo largo de todo el ciclo de vida, asegurando tanto la confidencialidad de los datos como la privacidad en el caso de que aplique.

“¿Cómo ayuda DAMA a abordar estos desafíos?”

Habitualmente las organizaciones se han centrado en la calidad de los datos, su certificación, el gobierno de la función y del metadato, pero la irrupción de IoT obliga a darle más importancia, si cabe, a los procesos de gobierno: eventos asociados al ciclo de vida del dato, seguridad yprivacidad, integración, interoperabilidad, etc.

La irrupción de los dispositivos IoT añaden un origen de datos particular a ingestar en las plataformas Big Data y Cloud en los que se deben aplicar best practices de gobierno desde la aparición del propio dato en el sensor correspondiente, ampliando, por tanto, el perímetro de datos gobernados y la variedad de tecnologías sobre las que ser capaz de ingestar su metadato tanto a nivel de negocio como a nivel técnico y operacional.

IoT también modifica drásticamente los mecanismos tradicionales y de reporting en plataformas informacionales y analíticas, ya que añade una variante determinante en IoT que es la geolocalización de los dispositivos, así como la interconexión entre ellos y los protocolos de intercambio e interoperabilidad que es necesario cumplir.

Además de seguir contando con las herramientas tradicionales de Business Intelligence para
poder tomar decisiones, visualizar tendencias, etc… en IoT adquieren una importancia especial
las componentes visuales por geolocalización.

Por último, a nivel de integración e interoperabilidad en entornos IoT, es clave perseguir las
metas que propone DAMA:

• Hacer que los datos estén disponibles en los plazos establecidos.
• Consolidar los datos provenientes de IoT a nivel físico y virtual en los nodos de datos.
• Reducir el costo y la complejidad de la gestión de soluciones mediante el desarrollo de modelos e interfaces compartidas.
• Identificar eventos significativos y activar de manera automática, alertas y acciones.

Conclusión

Como conclusión podemos apuntar que, en la utilización de las nuevas tecnologías, la implantación de la práctica formal para el gobierno de los datos es tanto o más importante que en las tecnologías tradicionales, con el fin de mejorar el time-to-market y conocer mejor tus datos.

En este sentido, es clave tener en cuenta la madurez de la tecnología porque no es lo mismo Big Data con más de una década de vida, que IoT que cuenta con pocos años (a nivel productivo). Por este motivo, los aceleradores que pueden dar cada una de ellas varía mucho, así como el disponer de un repositorio con los metadatos actualizados que
permitan a los consumidores extraer todo el potencial y eficientar los tiempos a la hora de la identificación de los datos.

Por otra parte, también es crítico involucrar a la organización en el gobierno de los datos ya que las tecnologías no dan automática y mágicamente la respuesta, para ello se puede consultar el articulo ya publicado en el grupo de trabajo de Gobierno y Metadatos

“¿Por dónde empiezo a Gobernar los datos en mi organización?”

El siguiente artículo que elaborará el grupo de trabajo se centrará en recomendaciones para abordar los desafíos en materia de gobierno de datos que se tienen en cada uno de estos entornos (Big Data, Cloud e IoT) y otros generales que apliquen independientemente de los entornos sobre los que fluyan los datos.

Autores

Participantes del Grupo de Trabajo de Gobierno del Dato y Metadatos que han contribuido en este tema de estudio, así como en la redacción de este artículo:

– Ángel López

Alfonso Fernández

Rubén Arévalo

Coordinador/Responsable del Grupo de Trabajo de Gobierno del Dato y Metadatos:
Mario de Francisco