Saltar la navegación

Extracción

La selección de los Data Sources  para proveer  todos los datos que sean relevantes, tiene que hacerse teniendo en cuenta las necesidades de l@s usuari@s y requisitos definidos para la solución.

En la mayoría de los casos, los Data Sources a utilizar serán bases de datos relacionales, con lo cual la extracción puede llevarse a cabo mediante consultas SQL o procedimientos almacenados. Pero en el caso de Data Sources NO convencionales o NO estructurados, la obtención será más dificultosa.

Una vez seleccionados y extraídos, los datos, deben ser persistidos en una base de datos relacional Staging (almacenamiento intermedio), lo cual permitirá:

  • Manipular los datos sin interrumpir ni sobrecargar los Data Sources y el DW.
  • Crear una capa de abstracción entre la lectura y la carga.
  • Almacenar y gestionar los metadatos que se generan en los procesos ETL.
  • Facilitar la integración.

El Staging Area, generalmente, se constituye en una o más bases de datos relacionales donde la información puede ser persistida en tablas auxiliares, tablas temporales, etc. Una vez que los datos se encuentren en Staging Area, el proceso puede desconectarse de los Data Sources y continuar con la transformaciones necesarias para poblar el DW.