6.1 Conceptos de Minería de Datos

6.1 Conceptos de Minería de Datos alfonsocutro 29 Enero, 2010 - 11:49

La minería de datos suele describirse cómo “el proceso de extraer información válida, auténtica y que se pueda procesar de las bases de datos de gran tamaño”. En otras palabras, la minería de datos deriva patrones y tendencias que existen en los datos. Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar a situaciones empresariales como las siguientes:

Definir el problema.

• Preparar los datos.

• Explorar los datos.

• Generar modelos.

• Explorar y validar los modelos.

• Implementar y actualizar los modelos.

El siguiente diagrama describe las relaciones entre cada paso del proceso (ver fig. 6.1).

 

         

 

Figura 6.1: Proceso que se ilustra la generación de un modelo de minería de datos.

 

Aunque el proceso que se ilustra en el diagrama es circular, esto no significa que cada paso conduzca directamente al siguiente. La creación de un modelo de minería de datos es un proceso dinámico e iterativo. Una vez que se han explorado los datos, puede que se descubra que resultan insuficientes para crear los modelos de minería de datos adecuados y que, por tanto, se debe buscar más datos.

Se puede generar varios modelos y descubrir que no responden al problema planteado cuando se lo definió y que, por tanto, se debe volver a definir el problema.Es posible que se deba actualizar los modelos una vez implementados debido a que haya más datos disponibles. Por esto, es importante comprender que la creación de un modelo de minería de datos es un proceso, y que cada paso del proceso puede repetirse tantas veces como sea necesario para crear un modelo válido.

IBM DB2 Intelligent Miner for Data V8.1 ofrece un entorno integrado para crear y trabajar con modelos de minería de datos. El entorno incluye algoritmos y herramientas de minería de datos que facilitan la generación de una solución completa para diversos proyectos. Para obtener más información acerca de cómo usar IBM DB2 Intelligent Miner for Data V8.1 ver el Capítulo No4 (Introducción a Intelligent Miner for Data).

6.1.1 Definir el Problema

6.1.1 Definir el Problema alfonsocutro 29 Enero, 2010 - 11:53

El primer paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en definir claramente el problema a resolver (ver fig. 6.2).

 

          

 

Figura 6.2: El primer paso del proceso, implica en definir claramente el problema.

Este paso incluye analizar los requisitos de la organización, definir el ámbito del problema, definir las métricas por las que se evaluará el modelo y definir el objetivo final del proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes:

¿Qué se está buscando?.

• ¿Qué atributo del conjunto de datos se desea intentar predecir?.

• ¿Qué tipos de relaciones se intenta buscar?.

• ¿Se desea realizar predicciones a partir del modelo de minería de datos o sólo buscar asociaciones y patrones interesantes?.

• ¿Cómo se distribuyen los datos?.

• ¿Cómo se relacionan las columnas?, o en caso de haber varias tablas, ¿cómo se relacionan las tablas?.

 

Para responder a estas preguntas, es probable que se deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la organización con respecto a los datos disponibles. Si los datos no son compatibles con las necesidades de los usuarios, puede que se deba volver a definir el proyecto.
 

6.1.2 Preparar los Datos

6.1.2 Preparar los Datos alfonsocutro 29 Enero, 2010 - 12:01

El segundo paso del proceso de minería de datos, como se indica en el siguiente diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el Problema (ver fig. 6.3).

 

     

  Figura 6.3: El segundo paso, consiste en la depuración y consolidación de los datos.

Los datos pueden estar dispersos en la organización y almacenados en distintos formatos. IBM DB2 Intelligent Miner for Data puede utilizar como datos de entrada archivos planos, donde estos también pueden contener incoherencias como datos faltantes “missings” , fuera de rango “outliers” o simplemente contener errores.

Por ejemplo: los datos pueden mostrar que un cliente adquirió un producto incluso antes de haber nacido o que el cliente compra regularmente en una tienda situada a 3.000 kilómetros de su casa. Antes de empezar a generar modelos, se debe solucionar estos problemas. Normalmente se trabaja con un conjunto de datos muy grande y no se puede comprobar cada transacción. Es por ello que este paso es de suma importancia ya que es aquí donde se tendrá que realizar las correspondientes y verificaciones para obtener resultados fehacientes.

Calidad en los Datos

El éxito de las actividades de Data Mining se relaciona directamente con la calidad de los datos.

Muchas veces resulta necesario pre-procesar los datos antes de derivarlos al modelo de análisis. El pre-procesamiento puede incluir transformaciones, reducciones o combinaciones de los datos.

La semántica de los datos debe ayudar para la selección de una conveniente representación y las bondades de la representación elegida gravitan directamente sobre la calidad del modelo y de los resultados posteriores.
 

Problemas con los Datos

En la fase de Preparación de Datos, pueden suceder una diversidad de casos:

Demasiados datos:

— Datos corruptos o con ruido.

— Datos redundantes (requieren factorización).

— Datos irrelevantes.

— Excesiva cantidad de datos (muestreo).

Pocos datos:

— Atributos perdidos (missings).

— Valores perdidos.

Poca cantidad de datos

— Datos fracturados.

— Datos incompatibles.

— Múltiples fuentes de datos.

6.1.3 Explorar los Datos

6.1.3 Explorar los Datos alfonsocutro 29 Enero, 2010 - 13:01

El tercer paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en explorar los datos preparados (ver fig. 6.4).

 

         

 

   Figura 6.4: Se debe comprender los datos para selecionar un modelo adecuado.

Se debe comprender los datos para tomar las decisiones adecuadas al crear los modelos. Entre las técnicas de exploración se incluyen calcular los valores mínimos y máximos, calcular la media y las desviaciones estandar y examinar la distribución de los datos. Una vez explorados los datos, se puede decidir si el conjunto de datos contiene datos con errores y, a continuación, crear una estrategia para solucionar los problemas.

6.1.4 Generar Modelos

6.1.4 Generar Modelos alfonsocutro 29 Enero, 2010 - 13:20

El cuarto paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en generar los modelos de minería de datos (ver fig. 6.5).

Antes de generar un modelo, se deben separar aleatoriamente los datos preparados en conjuntos de datos de entrenamiento y comprobación independientes. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de comprobación para comprobar la precisión del modelo mediante la creación de consultas de predicción.

 

       

    

   Figura 6.5: Un modelo, es una tabla de datos compuesta por filas y columnas.

Se utilizarán los conocimientos adquiridos en el paso Explorar los Datos para definir y crear un modelo de minería de datos. Normalmente, los modelos contienen:

Columnas de Entrada.

• Columna de Identificación.

• Columna dePredicción.

Es decir que los datos para data mining se organizan en forma de una tabla plana compuesta por Filas y Columnas, donde:

• Las Filas: Son las unidades de análisis. Por ejemplo: una cuenta bancaria, un ticket de un supermercado, etc.

• Las Columnas: Los atributos de cada unidad de análisis. Por ejemplo: la frecuencia de uso de la tarjeta de crédito, sexo, edad, etc.

 

Una vez definida la estructura del modelo de minería de datos, se la procesa rellenando la estructura vacía con los patrones que describen el modelo. Esto se conoce como entrenar el modelo.

Los patrones se encuentran al pasar los datos originales por un algoritmo matemático. IBM DB2 Intelligent Miner for Data V8.1 contiene un algoritmo diferente para cada tipo de modelo que se puede generar. Se puede utilizar parámetros para ajustar cada algoritmo.

El modelo de minería de datos se define mediante:

Objeto de estructura de minería de datos.

• Objeto de modelo de minería de datos.

• Algoritmo de minería de datos.

Características de las Tablas de Datos para Data Mining

Como se hacía referencia anteriormente, un modelo de Minería de Datos se organiza como una tabla plana, con filas y columnas. En donde en ella se tiene
las siguientes particularidades:

• Cada fila debe corresponder a una instancia relevante al caso de estudio.

• Todos los datos deben estar en una sola tabla o “vista” de la Base de Datos.

• Las columnas sin variabilidad deben ser ignoradas.

•Los atributos con valores únicos para cada caso deben ser ignoradas (nro.de cuenta, DNI, etc.). Muchas veces este tipo de información contiene datos sensibles.

Datos sensibles: Datos personales que revelan origen racial y étnico, opiniones políticas, convicciones religiosas, filosóficas o morales, afiliación sindical e información referente a la salud o a la vida sexual. Art. No 7 de la Ley No25326 Protección de los Datos Personales.

Resumiendo, para tener una mejor comprensión del problema se debe factorizar (reducir dimensionalidad) logrando así un modelo terminado.

6.1.5 Explorar y Validar los Modelos

6.1.5 Explorar y Validar los Modelos alfonsocutro 3 Febrero, 2010 - 11:49

 El quinto paso del proceso de Minería de Datos, como se resalta en el siguiente diagrama, consiste en explorar los modelos que se han generado y comprobar su eficacia (ver fig. 6.6).

 

     

 

   Figura 6.6: La validación implica la seleción del modelo que se adapte mejor.

 

No se debe implementar un modelo en un entorno de producción sin comprobar hayan creado varios modelos y se deba decidir cuál funciona mejor. Si ninguno de los modelos que se han creado en el paso Generar Modelos funciona correctamente, puede que se deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos.

6.1.6 Implementar y Actualizar los Modelos

6.1.6 Implementar y Actualizar los Modelos alfonsocutro 3 Febrero, 2010 - 11:57

 El último paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en implementar los modelos que funcionan mejor en un entorno de producción (ver fig. 6.7).

   

 

   Figura 6.7: La implementación es el ultimo paso de el proceso.

Una vez que los modelos de minería de datos se encuentran en el entorno de producción, se pueden llevar acabo diferentes tareas, dependiendo de las necesidades. Éstas son algunas de las tareas que se pueden realizar:

 

  • Utilizar los modelos para crear predicciones que se puedan utilizar para tomar decisiones empresariales. Por ejemplo: la predicción de demanda , optimización de campañas - tracking de campañas y predicción de respuesta / no respuesta.

 

  • Incrustar la funcionalidad de minería de datos directamente en una aplicación.

  • Aplicaciones del modelo de minería de datos a negocios electrónicos. Por ejemplo: para mejorar la estructura del Website (mejora en tiempos de acceso, análisis de tráfico y uso de recursos de e-business), se pueden aplicar las siguientes técnicas:

    — Propensión a la fuga - modelos de predicción de abandono del sitio.

— Propensión a la compra venta cruzada (afinidad) - canasta de consumo.

— Reglas de asociación de páginas visitadas.

— Segmentación de visitantes, panelistas.

— Scoring de riesgo.

— Análisis cross/up sell - caracterización de perfiles de clientes para definir acciones de up selling y cross selling.

— Detección de fraude.

  • Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente.

La actualización del modelo forma parte de la estrategia de implementación. A medida que la organización recibe más datos, debe volver a procesar los modelos para mejorar así su eficacia.