Elección de Columnas
Cuando se seleccionan los campos que integrarán el DW, se debe tener en cuenta lo siguiente:
- Se deben descartar aquellos campos cuyos valores tengan muy poca variabilidad.
- Se deben descartar los campos que tengan valores diferentes para cada objeto, por ejemplo el número de documento/cédula de identidad, cuando se analizan personas.
- En los casos en que no existan Jerarquías dentro de alguna tabla de Dimensión, en la cual la cantidad de registros que posee la misma son demasiados, es conveniente, conjuntamente con l@s usuari@s, definirlas. Pero, si llegase a suceder que no se encontrase ningún criterio por el cual jerarquizar los campos, es una buena práctica crear Jerarquías propias. El objetivo de llevar a cabo esta acción, es la de poder dividir los registros en grupos, propiciando de esta manera una exploración más amena y controlable. Para ejemplificar este punto, se utilizará como referencia la tabla de Dimensión de la siguiente figura. La misma no posee ninguna Jerarquía definida y la cantidad de registros con que cuenta son cientos:
Entonces, lo que se realizará, es crear una nueva Jerarquía a partir de los campos disponibles.
Se añadirá a la tabla el nuevo campo letra, el cual representará la primera letra del campo producto. Por ejemplo, si el valor de producto es Lapicera, la letra será L; si es Cartuchera será C, etc.
El resultado será el siguiente:
Además, se pueden aplicar algunas de las acciones que se expondrán a continuación sobre los valores de los campos que se incluirán en el DW:
- Factorizar: se utiliza para descomponer un valor en dos o más componentes. Por ejemplo, el campo codigo perteneciente a un producto está formado por tres identificadores separados por guiones medios, que representan su rubro, marca y tipo (idRubro-idMarca-idTipo), entonces este campo puede factorizarse y separarse en tres valores independientes: idRubro, idMarca e idTipo.
- Estandarizar: se utiliza para ajustar valores a un tipo de formato o norma preestablecida. Por ejemplo, se puede emplear esté método cuando se desea que todos lo campos del tipo texto sean convertidos a mayúscula.
- Codificar: es utilizado para representar valores a través de las reglas de un código preestablecido. Por ejemplo, en el campo estado se pueden codificar sus valores, 0 y 1, para transformarlos en Apagado y Encendido respectivamente.
- Discretizar: es empleado para convertir un conjunto continuo de valores en uno discreto. Por ejemplo, en el campo intensidad se pueden codificar los valores menores a 100 como Baja; los valores mayores a 100 y menores a 500 como Media; y los valores mayores a 500 como Alta.
Obra publicada con Licencia Creative Commons Reconocimiento No comercial Sin obra derivada 4.0