6.1.4 Generar Modelos
6.1.4 Generar Modelos alfonsocutro 29 Enero, 2010 - 13:20El cuarto paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en generar los modelos de minería de datos (ver fig. 6.5).
Antes de generar un modelo, se deben separar aleatoriamente los datos preparados en conjuntos de datos de entrenamiento y comprobación independientes. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de comprobación para comprobar la precisión del modelo mediante la creación de consultas de predicción.
Figura 6.5: Un modelo, es una tabla de datos compuesta por filas y columnas.
Se utilizarán los conocimientos adquiridos en el paso Explorar los Datos para definir y crear un modelo de minería de datos. Normalmente, los modelos contienen:
• Columnas de Entrada.
• Columna de Identificación.
• Columna dePredicción.
Es decir que los datos para data mining se organizan en forma de una tabla plana compuesta por Filas y Columnas, donde:
• Las Filas: Son las unidades de análisis. Por ejemplo: una cuenta bancaria, un ticket de un supermercado, etc.
• Las Columnas: Los atributos de cada unidad de análisis. Por ejemplo: la frecuencia de uso de la tarjeta de crédito, sexo, edad, etc.
Una vez definida la estructura del modelo de minería de datos, se la procesa rellenando la estructura vacía con los patrones que describen el modelo. Esto se conoce como entrenar el modelo.
Los patrones se encuentran al pasar los datos originales por un algoritmo matemático. IBM DB2 Intelligent Miner for Data V8.1 contiene un algoritmo diferente para cada tipo de modelo que se puede generar. Se puede utilizar parámetros para ajustar cada algoritmo.
El modelo de minería de datos se define mediante:
• Objeto de estructura de minería de datos.
• Objeto de modelo de minería de datos.
• Algoritmo de minería de datos.
Características de las Tablas de Datos para Data Mining
Como se hacía referencia anteriormente, un modelo de Minería de Datos se organiza como una tabla plana, con filas y columnas. En donde en ella se tiene
las siguientes particularidades:
• Cada fila debe corresponder a una instancia relevante al caso de estudio.
• Todos los datos deben estar en una sola tabla o “vista” de la Base de Datos.
• Las columnas sin variabilidad deben ser ignoradas.
•Los atributos con valores únicos para cada caso deben ser ignoradas (nro.de cuenta, DNI, etc.). Muchas veces este tipo de información contiene datos sensibles.
Datos sensibles: Datos personales que revelan origen racial y étnico, opiniones políticas, convicciones religiosas, filosóficas o morales, afiliación sindical e información referente a la salud o a la vida sexual. Art. No 7 de la Ley No25326 Protección de los Datos Personales.
Resumiendo, para tener una mejor comprensión del problema se debe factorizar (reducir dimensionalidad) logrando así un modelo terminado.