6.1.1 Definir el Problema

El primer paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en definir claramente el problema a resolver (ver fig. 6.2).

 

          

 

Figura 6.2: El primer paso del proceso, implica en definir claramente el problema.

Este paso incluye analizar los requisitos de la organización, definir el ámbito del problema, definir las métricas por las que se evaluará el modelo y definir el objetivo final del proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes:

¿Qué se está buscando?.

• ¿Qué atributo del conjunto de datos se desea intentar predecir?.

• ¿Qué tipos de relaciones se intenta buscar?.

• ¿Se desea realizar predicciones a partir del modelo de minería de datos o sólo buscar asociaciones y patrones interesantes?.

• ¿Cómo se distribuyen los datos?.

• ¿Cómo se relacionan las columnas?, o en caso de haber varias tablas, ¿cómo se relacionan las tablas?.

 

Para responder a estas preguntas, es probable que se deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la organización con respecto a los datos disponibles. Si los datos no son compatibles con las necesidades de los usuarios, puede que se deba volver a definir el proyecto.