6.1.2 Preparar los Datos

El segundo paso del proceso de minería de datos, como se indica en el siguiente diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el Problema (ver fig. 6.3).

 

     

  Figura 6.3: El segundo paso, consiste en la depuración y consolidación de los datos.

Los datos pueden estar dispersos en la organización y almacenados en distintos formatos. IBM DB2 Intelligent Miner for Data puede utilizar como datos de entrada archivos planos, donde estos también pueden contener incoherencias como datos faltantes “missings” , fuera de rango “outliers” o simplemente contener errores.

Por ejemplo: los datos pueden mostrar que un cliente adquirió un producto incluso antes de haber nacido o que el cliente compra regularmente en una tienda situada a 3.000 kilómetros de su casa. Antes de empezar a generar modelos, se debe solucionar estos problemas. Normalmente se trabaja con un conjunto de datos muy grande y no se puede comprobar cada transacción. Es por ello que este paso es de suma importancia ya que es aquí donde se tendrá que realizar las correspondientes y verificaciones para obtener resultados fehacientes.

Calidad en los Datos

El éxito de las actividades de Data Mining se relaciona directamente con la calidad de los datos.

Muchas veces resulta necesario pre-procesar los datos antes de derivarlos al modelo de análisis. El pre-procesamiento puede incluir transformaciones, reducciones o combinaciones de los datos.

La semántica de los datos debe ayudar para la selección de una conveniente representación y las bondades de la representación elegida gravitan directamente sobre la calidad del modelo y de los resultados posteriores.
 

Problemas con los Datos

En la fase de Preparación de Datos, pueden suceder una diversidad de casos:

Demasiados datos:

— Datos corruptos o con ruido.

— Datos redundantes (requieren factorización).

— Datos irrelevantes.

— Excesiva cantidad de datos (muestreo).

Pocos datos:

— Atributos perdidos (missings).

— Valores perdidos.

Poca cantidad de datos

— Datos fracturados.

— Datos incompatibles.

— Múltiples fuentes de datos.