Data Cleansing
El objetivo principal del Data Cleansing (Limpieza de Datos) es entregar un flujo de datos lo más sanitizado posible. Por lo tanto podrá llevar a cabo acciones tales como eliminar datos erróneos o irrelevantes y subsanar aquellos que presenten inconsistencias.
Las acciones más típicas que se pueden llevar a cabo al encontrarse con Outliers (Datos Anómalos) son:
- Ignorarlos.
- Eliminar la columna (se eliminan el 100% de los datos).
- Filtrar la columna (se eliminan algunos de los datos).
- Filtrar la fila errónea, ya que a veces su origen, se debe a casos especiales.
- Reemplazar el valor.
- Discretizar los valores de las columnas. Por ejemplo, si un campo numérico presenta un valor de 1 a 2, utilizamos el texto Bajo; de 3 a 7, Óptimo; de 8 a 10, Alto. Entonces, cuando suceda un Outlier se puede reemplazar por Bajo o Alto.
Las acciones que suelen efectuarse contra Missing Values (Datos Faltantes) son:
- Ignorarlos.
- Eliminar la columna (se eliminan el 100% de los datos).
- Filtrar la columna (se eliminan algunos de los datos).
- Filtrar la fila errónea, ya que a veces su origen, se debe a casos especiales.
- Reemplazar el valor.
- Esperar hasta que los datos faltantes estén disponibles.
Antes de elegir alguna acción, es muy importante que se identifique el por qué de la anomalía, para luego actuar en consecuencia, con el fin de evitar que se repitan, agregando de esta manera más valor a los datos de la organización. Puede suceder que en algunos casos, los valores faltantes sean inexistentes, por ejemplo, cuando l@s nuev@s asociad@s o client@s, no posen consumo medio del último año.
Obra publicada con Licencia Creative Commons Reconocimiento No comercial Sin obra derivada 4.0