Artículo del Grupo de Trabajo de BI & Modelado de Datos



Grupo de Trabajo de BI & Modelado de Datos

Herramientas específicas como Facilitadoras en los Procesos de Extracción, Carga y Transformación

Publicado el 5 de noviembre de 2025





José Gabriel Moreno Campos

José Gabriel Moreno Campos

Autor


Laura Garrido Ledesma

Laura Garrido Ledesma

Autora


Enrique Mora Beneyto

Enrique Mora Beneyto

Autor

Coordinación del equipo: Joaquín Sánchez-Almadén Subías



Resumen

En este artículo se va a intentar mostrar cómo, en muchas ocasiones, se utilizan herramientas para hacer una función que no es para la que se concibieron en un principio.

A modo de ejemplo veremos cómo se están utilizando herramientas que se han desarrollado con el objetivo de obtener una calidad y limpieza en los datos, o herramientas propias de visualización, pero que, finalmente, se usan como una herramienta de integración para poder hacer procesos de Extracción, Transformación y Carga (ETL).

Esto se suele hacer por reducción de costes, lo cual puede parecer beneficioso en un principio, pero a largo plazo se comprueba que no es así. Aunque bien es cierto que comparten funcionalidades y con ambas se puede llegar al mismo destino final, la programación de tareas para las que no está diseñada la herramienta hace que el proceso sea mucho más largo, engorroso y, por ende, con un costo mayor final para la empresa.



“La Gestión de la Calidad de Datos se enfoca en asegurar que los datos sean precisos, completos, confiables y relevantes”



Introducción

Las palabras clave en el punto anterior son funcionalidad, calidad, visualización e integración. Para el marco de referencia DMBOK las áreas que se describen en el mismo, trabajan en conjunto para garantizar que los datos sean precisos, accesibles, seguros y útiles para la toma de decisiones estratégicas y operativas.

Una de las áreas fundamentales es la Gestión de la Calidad de Datos, que se enfoca en asegurar que los datos sean precisos, completos, confiables y relevantes. Sin una buena calidad de datos, cualquier análisis o decisión puede estar comprometido, por lo que esta área es esencial para mantener la integridad de la información, al igual que la Gestión de Integración de Datos busca consolidar datos provenientes de diferentes fuentes para ofrecer una visión unificada y coherente.

Como podemos ver, para DAMA es importantísimo que ambas áreas se complementen para dar valor a las soluciones y por eso las trata de forma separada, para que se especialicen cada una en su parte. Es por ello que el uso de herramientas diseñadas específicamente para un fin y usadas para otro puede parecer mejor, pero a la larga su gestión y el fin para el cual han sido desarrolladas no son adecuados.



Análisis de herramientas

Este artículo se dividirá en diferentes aspectos en los que vamos a profundizar para indicar las diferencias de una y otra herramienta, así como los puntos fuertes de cada una, que es para el objetivo que tenían fijado.

A modo de resumen, los distintos aspectos que se han tratado son los siguientes:

  • Propósito principal y enfoque de cada una de ellas
  • Rendimiento
  • Características propias
  • Casos de uso
  • Integración
  • Transformación
  • Análisis Avanzados y creación de informes
  • Roles
  • Obtención de datos a lo largo del tiempo



Propósito principal y enfoque de cada una de ellas

Las herramientas de calidad tienen por objetivo garantizar la validez, integridad, consistencia y exactitud de los datos ofreciendo capacidades como pueden ser los perfilados de datos, coincidencia, limpieza, estandarización, normalización, etc. de los datos de forma que se puedan llegar a cargar en la base de datos final con una calidad adecuada a los estándares solicitados por la compañía.

Las herramientas tradicionales ETL están más orientadas a la extracción de uno o varios sistemas de origen, y a la transformación de esos datos. El objetivo principal es «llevar datos» de un origen a un destino realizando las transformaciones necesarias, pero no siempre enfatizando en los temas de la calidad.

Rendimiento

En cuanto al rendimiento, las herramientas de calidad no están diseñadas para hacer una carga masiva de datos en unos tiempos cortos en comparación con las herramientas ETL que están dedicadas y diseñadas para tal fin. Por el contrario, el rendimiento de una ETL baja cuando se trata de hacer tareas de limpieza y de calidad en los datos.

Características propias

La mayoría de herramientas de calidad incluyen opciones avanzadas para analizar datos en busca de patrones, anomalías y/o inconsistencias (perfilado de datos), corrección y estandarización de los datos como direcciones, teléfonos, etc. (limpieza de datos), identificación de duplicidades y su correspondiente fusión (coincidencia de datos) y permite monitorear a lo largo del tiempo que la calidad siempre se mantenga con la calidad deseada (monitoreo de datos).

Sin embargo, las herramientas ETL, aunque incluyen también características básicas de calidad de los datos (eliminación de espacios, conversiones, etc.), no ofrecen, de forma general temas como perfilados, limpiezas en profundidad como una de las tareas principales.

Casos de uso

Mientras que las herramientas de calidad se emplean para garantizar que los datos con los que posteriormente se realizarán las tomas de decisiones sean precisos y de buena calidad utilizándose mayoritariamente en proyectos de Gobierno y Gestión del Dato, así como en el cumplimiento normativo, una herramienta ETL se utilizará para proyectos integradores de datos, pudiendo hacer un conglomerado de diferentes sistemas y almacenes de datos, ya se encuentren en local como en la nube.

Integración

Las herramientas de calidad se deberían de integrar para conseguir una mayor confianza en los datos, con herramientas propias del Gobierno de Datos y herramientas de gestión de datos maestros y plataformas de integración de datos (ETL), obteniendo así una calidad óptima en los datos a lo largo de todo el ciclo de vida, volviendo a cargar en la fuente, en algunas ocasiones, el dato ya limpio para poder ser procesado por otros sistemas.

Sin embargo, las herramientas de ETL suelen tener un carácter más independiente o llegar a integrarse con diferentes sistemas o bases de datos. En estos casos, la calidad es una preocupación secundaria ya que no es el punto objetivo de este tipo de herramientas.

“Las herramientas de calidad se deberían de integrar para una mayor confianza, con herramientas del Gobierno de Datos y herramientas de gestión de datos maestros y plataformas de integración”

Transformación

Aunque las herramientas de calidad, en algunos casos, pueden llegar a aportar determinadas herramientas avanzadas de como la estandarización, normalización o la garantía de que los datos siguen unos patrones previamente definidos, todas estas características se basan principalmente en la calidad y no tanto a la lógica empresarial.

Por el contrario, las herramientas ETL están más orientadas a conseguir adecuarse a las reglas empresariales (reglas matemáticas, KPI’s, agregación de tablas, etc.) que en la calidad siendo este un componente secundario, aunque no excluyente.

Análisis Avanzados y creación de informes

Mientras que las herramientas ETL, por regla general no suelen proveer este tipo de análisis, esta carencia se suele solventar con ayuda de herramienta de BI o de visualización de datos.

Sin embargo, la mayoría de las herramientas de calidad, aunque de forma muy rudimentaria en algunos casos, sí que ofrecen diferentes «sub-herramientas» para obtener cuadros de mandos en los que se podrán basar los stakeholders para tener controlado en todo momento las reglas de calidad implementadas.

Roles

Principalmente deberían utilizar las herramientas de calidad las personas que tendrán por consigna el mantener una calidad adecuada en los datos como son los equipos del Gobierno del Dato, administradores de datos y los analistas dedicados a la calidad de los mismos.

Por su parte, los desarrolladores, ingenieros de datos y los arquitectos de sistemas son los principales usuarios de las ETL donde se desarrollan los flujos de trabajo con los que se consigue gestionar un gran volumen de datos.

Obtención de datos a lo largo del tiempo

Mientras que con las herramientas ETL se suele realizar la carga de datos por lotes, procesando los datos cada cierto intervalo de tiempo (horas, días, meses, etc.), a veces también tienen carga en tiempo real, aunque es menos común en un sistema de datawarehouse tradicional, cosa que las herramientas de calidad sí que permiten obtener calidad en tiempo real (o casi) e identificar los posibles problemas de calidad que van surgiendo en los datos que posteriormente se almacenarán.



Conclusión

Aunque con más o menos esfuerzo se podrían realizar las mismas tareas, en el caso de las herramientas de calidad y las de visualización, su propósito final se va a centrar en limpieza, coincidencia, perfilado, seguimiento y creación de cuadros de mando para ayudar en la toma de decisiones mientras que para las herramientas de ETL, su función principal es la de la extracción, transformación y carga de los datos sin ahondar en la calidad que puedan tener estos datos.

Debido a las semejanzas entre ellas, muchas herramientas, por ahorro de costes a corto plazo, utilizan una de ellas para hacer las funciones de ambas, aunque lo que puede parecer una ventaja a corto plazo se convierte en un gran coste a medio y largo plazo ya que exige mucho mayor esfuerzo en horas de programación y, por lo tanto, coste del proyecto.

En definitiva, se pueden utilizar herramientas para realizar funciones para las cuales no han sido diseñadas; sin embargo, si necesitas procesos ETL más complejos o automatizados a gran escala, quizás sería recomendable complementarlo con herramientas específicas para tal propósito.



Artículo elaborado por el Grupo de Trabajo de BI & Modelado de Datos de DAMA España

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *