La minería de datos suele describirse cómo “el proceso de extraer información válida, auténtica y que se pueda procesar de las bases de datos de gran tamaño”. En otras palabras, la minería de datos deriva patrones y tendencias que existen en los datos. Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar a situaciones empresariales como las siguientes:
• Definir el problema.
• Preparar los datos.
• Explorar los datos.
• Generar modelos.
• Explorar y validar los modelos.
• Implementar y actualizar los modelos.
El siguiente diagrama describe las relaciones entre cada paso del proceso (ver fig. 6.1).
Figura 6.1: Proceso que se ilustra la generación de un modelo de minería de datos.
Aunque el proceso que se ilustra en el diagrama es circular, esto no significa que cada paso conduzca directamente al siguiente. La creación de un modelo de minería de datos es un proceso dinámico e iterativo. Una vez que se han explorado los datos, puede que se descubra que resultan insuficientes para crear los modelos de minería de datos adecuados y que, por tanto, se debe buscar más datos.
Se puede generar varios modelos y descubrir que no responden al problema planteado cuando se lo definió y que, por tanto, se debe volver a definir el problema.Es posible que se deba actualizar los modelos una vez implementados debido a que haya más datos disponibles. Por esto, es importante comprender que la creación de un modelo de minería de datos es un proceso, y que cada paso del proceso puede repetirse tantas veces como sea necesario para crear un modelo válido.
IBM DB2 Intelligent Miner for Data V8.1 ofrece un entorno integrado para crear y trabajar con modelos de minería de datos. El entorno incluye algoritmos y herramientas de minería de datos que facilitan la generación de una solución completa para diversos proyectos. Para obtener más información acerca de cómo usar IBM DB2 Intelligent Miner for Data V8.1 ver el Capítulo No4 (Introducción a Intelligent Miner for Data).