2) Load Manager
El componente Load Manager es el encargado de la ejecución y calendarización (scheduling) de los diferentes procesos de Integración de Datos a través de los cuales:
- se extraerán los datos desde los Data Sources,
- serán manipulados, integrados y transformados, para luego
- cargar los resultados obtenidos en el DW.
La Integración de Datos es una serie de técnicas y procesos que se encargan de llevar a cabo todas las tareas relacionadas con la extracción, manipulación, control, integración, depuración de datos, carga y actualización del DW, etc. Es decir, todas las tareas que se realizarán desde que se obtienen los datos de los diferentes Data Sources hasta que se cargan en el DW.
Si bien el proceso ETL (Extraction, Transformation, Load) es solo una de las muchas técnicas de la Integración de Datos, es la más importante, incluso en muchos casos constituyen el proceso de integración en si. En este orden, se puede ubicar el resto de las técnicas en las diferentes etapas del ETL:
- el proceso Extracción incluirá técnicas enfocadas por ejemplo a obtener desde diversas fuentes solamente los datos relevantes y mantenerlos en una Staging Area (almacenamiento intermedio);
- el proceso Transformación incluirá técnicas encargadas de compatibilizar formatos, filtrar y clasificar datos, relacionar diversas fuentes, etc;
- el proceso Carga incluirá técnicas propias de la carga de datos y actualización del DW.
A continuación, se detallarán cada una de estas etapas, se expondrá cuál es el proceso que llevan a cabo los ETL y se enumerarán cuáles son sus principales tareas.
Obra publicada con Licencia Creative Commons Reconocimiento No comercial Sin obra derivada 4.0