Data Mining
El Data Mining se emplea para analizar factores de influencia en determinados procesos, predecir comportamientos futuros, extraer conocimientos ocultos, agrupar ítems similares, obtener secuencias de eventos que provocan comportamientos específicos.
El Data Mining puede implementarse sobre cualquier conjunto de datos, NO necesariamente sobre un DW.
El Data Mining también permite inferir comportamientos, modelos, relaciones y estimaciones de los datos, para poder desarrollar predicciones, sin la necesidad de contar con patrones o reglas preestablecidas, permitiendo tomar decisiones proactivas y basadas en un conocimiento acabado de la información.
Además brinda la posibilidad de dar respuesta a preguntas complicadas sobre los temas de interés, como por ejemplo:
- ¿Qué está pasando?
- ¿Por qué?
- ¿Qué pasaría sí?
Estos cuestionamientos aplicados a una empresa podrían ser:
- ¿Cuál de los productos de tal marca y clase serán más vendidos en la zona norte en el próximo semestre? y ¿por qué?
- ¿Cuáles son los libros que querrá comprar tal cliente en el próximo ingreso?
Además se podrán ver los resultados en forma de reportes tabulares, matriciales, charts, tableros, etc.
Entonces, se puede definir Data Mining como una técnica para descubrir patrones y relaciones entre grandes cantidades de datos, que a simple vista o que mediante otros tipos de análisis NO se pueden deducir, ya que consumiría demasiado tiempo o estaría fuera de las expectativas.
Los sistemas Data Mining se desarrollan bajo lenguajes de última generación basados en Inteligencia Artificial y utilizan métodos matemáticos tales como:
- Redes Neuronales.
- Sistemas Expertos.
- Programación Genética.
- Árboles de Decisión.
Soportan además, sofisticadas operaciones de análisis como los sistemas Scoring, aplicaciones de Detección de Desviación y Detección de Fraude.
Es muy importante tener en cuenta que en las herramientas OLAP y Reporting, el análisis parte de una pregunta o hipótesis generada por l@s usuari@s, en cambio Data Mining permite generar estas hipótesis.
Generalmente las herramientas de Data Mining se integran con plataformas de hardware y software existentes (como DW) para incrementar el valor de los Data Sources existentes y para que puedan ser integradas con nuevos productos y sistemas en línea (como OLAP). Sumado a esto, implementar Data Mining sobre un DW tiene, entre otras ventajas, el soporte y beneficios de los procesos ETL y de las técnicas de limpieza de datos, tan necesarios en este tipo de análisis.
Obra publicada con Licencia Creative Commons Reconocimiento No comercial Sin obra derivada 4.0