6.2.4 Generación de los Modelos (2/8)

6.2.4 Generación de los Modelos (2/8) alfonsocutro 10 Febrero, 2010 - 12:22

Creación de la Base de Minería Al finalizar los anteriores pasos, sedeben crear los Objetos de Minería , que no son más que funciones analíticasaplicadas a los datos.

Estos objetos generan Objetos de Resultados , que se pueden ver y analizarcon las herramientas de visualización incorporadas a Intelligent Miner Visualizer.Los resultados se analizan en páginas posteriores, aquí simplemente sedescriben los Objetos de Minería que se crean.

Considerando el análisis de carácter exploratorio que se desea realizar, seutiliza la Función de Clustering Demográfico.

Los objetos que se generan son:

  • PJ1_1=1 and Aglomerado =12.

Clustering de los Perfiles de los Planes Jefes y Jefas de la Prov. de Ctes.

  • personas EPH.

Contiene información de la tabla de personas de la tabla USB_T105 condatos, de la Base de Datos personas.

  • Datos de la EPH, con Ctes.

Contiene información de las variables a trabajar, como así como tambiénde Ctes.

  • Estudio de la Var CAES con respecto de la Población del NEA.

Contiene información de la población del NEA.

Los mismos se pueden visualizar, cuando se presiona Base de minería, Abrirbase de minería como se puede ver en la siguente fig. 6.23.

 

   

 

   Figura 6.23: Visualización de las distintas bases de minería creadas en elIntelligent Miner.

Una vez seleccionada la base de minería a utilizar, se debe crear la funciónde minería propiamente dicha. Para ello se deben realizar los siguientes pasos:

  • Selección de una Función de Minería.
     
  • Selección de los Datos de Entrada.
  • Especificación de Parámetros.
  • Especificación de los Campos de Salida.
  • Especificación del nombre de Datos de Salida.
  • Especificación del nombre de Resultado.

 

Selección de una Función de Minería Para seleccionar una Funciónde Minería, se debe escoger una de ellas en la listas de Función de Minería disponibles.
 

Las funciones de minería disponibles, como se puede ver en la fig. 6.24, son las siguientes:

  • Asociación.
  • Clasificación - Árbol.
  • Clasificación - Neuronal.
  • Clustering - Demográfico.
  • Clustering - Neuronal.
  • Patrones secuenciales.
  • Predicción - Función base radial.

La que se utilizará con más frecuencia en este apartado es la de Clustering- Demográfico.

 

     

 

   Figura 6.24: Selección de la función de minería, Clustering-Demográfico.

 

Selección de los Datos de Entrada Como se puede ver en la siguientefig. 6.25 el Intelligent Miner for Data, nos permite seleccionarlos Datos de entrada, ya sea mediante los Datos de entrada disponibles o casocontrario se pueden crear Datos de entrada, presionando el botón Crear datos.

 

   

 

   Figura 6.25: Selección de los Datos de entrada, 1 Trimestre del 2007.

Una vez seleccionados estos, se deberá realizar las Especificaciones de los Parámetros.
 

Especificación de Parámetros En la sección de Parámetros de modalidad (ver fig. 6.26), se pueden realizar numerosas modificaciones comoser las Pasadas máximas. Estas maximizan el número de veces que la funciónse aplica sobre los datos de entrada.
 

En este caso de estudio, en las secciones Especificación de parámetros yEspecificación de los campos de salida, no se realizan modificaciones.
 

Campos de Entrada Los campos de entrada son campos de datos que unafunción de minería utiliza para su posterior procesamiento (ver la fig. 6.27).
 

Objetos de Resultados En este apartado se expondrán todos los resultadosque proporcione el Intelligent Miner Visualizer. Esta herramienta per mitirá visualizar, analizar y hasta explorar los resultados obtenidos en cada ejecución.

 

   

 

  Figura 6.26: Especificación de los parámetros de modalidad.

 

   

 

   Figura 6.27: Selección de los campos de entrada (Campos activos y Campos adicionales).

 

Al ejecutar la función de minería, como se puede ver en la fig. 6.28, el Intelligent Miner proveerá de la siguiente información: horade inicio, tiempo transcurrido, información de estado adicional y criterio decondorcet. Este último permitirá encontrar la optimización en la seleccion delos Cluster.

 

   

 

   Figura 6.28: El criterio de condorcet es de 0.614 (donde aceptable es 0,65).
 

Como se puede observar en fig. 6.28 de la pág. 32, el criterio de Condorcettoma el valor 0.614. Esta información es suficiente para determinar que lasimilitud de los registros dentro de cada cluster es excelente dado que un valormínimo usual que se considera aceptable es 0,65.
 

Esto no implica que no se puede obtener mejores resultados seleccionandolas variables de entrada.
 

Al visualizar los objetos de resultados (ver fig. 6.29) se nota la existencia de 8 clusters identificados por la ejecución de minería. En cada clúster, los diagramas y gráficos de barras  representan los campos activos y msuplementarios utilizados.

Los campos con mayor influencia en la formación del cluster se visualizan a la izquierda (CH15, CH09, CH04, CH07, CH03), mientras que los campos con menor influencia se visualiza a la derecha (PP04A, Ch08. etc.).

 

   

 

   Figura 6.29: Intelligent Miner nos provee los resultados mediante Visualizador de clústeres.

La primera columna contiene el nombre y el ID del cluster, la siguiente representa el tamaño de cluster en porcentaje con respecto a la muestra; por ejemplo: el cluster superior representa un 61,67% de los datos, el siguiente un 20,68%, el siguiente un 11,01% y así sucesivamente.

En este caso prácticamente un 93,36% de la población está representada sólo por estos tres primeros clústeres, dividiéndose el 6,64% restante entre los demás.

Al contemplar la figura 6.30 de la pág. 34 se obtienen las siguientes conclusiones:

El primer grupo está represento por una población en su mayoría formada por mujeres, de 25 a 30 años de edad, que son residentes de Corrientes Capital y se encuentran unidas o juntadas con su cónjugue (ver fig. 6.31).

Con respecto a lo laboral, estás personas trabajan en hogares privados como servicio doméstico (ver fig. 6.32), donde no paga ni le descuentan mensualmente una cobertura médica como se puede ver fig. 6.33, tampoco tiene contrato de trabajo ni obra social y mucho menos descuento jubilatorio (ver fig. 6.34), respectivamente (ver fig.6.35).

 

El ingreso total individual predominantemente de estas personas esta en promedio entre los 100 a 200 pesos (ver fig. 6.36), y es de 0 pesos el ingreso proveniente de otras actividades (ver fig.6.72).

 

   

 

   Figura 6.30: Visualización general del Clúster No1 de 61,67% de la población total.

 

   

 

   Figura 6..31: Visualización de las variables CH04 (sexo), CH15 (¿Donde nacio?).

 

   

 

   Figura 6.32: Visualización, del contenido de la variable PP04B_COD (Clasificación de Actividades Económicas para Encuestas Socioeconómicas CAES).

 

   

 

   Figura 6.33: Muestreo del contenido de la variable CH08 (¿Tiene algún tipo de cibertura médica por la que paga o le descuentan?).

 

 

   

 

   Figura 6.34: En el resultado de la variable PP07G4 (obra social) se puede observar que en su gran mayoría estas personas no la poseen.

 

   

 

   Figura 6.35: Visualización del resultado de la variable PP07H (¿Por ese trabajo tiene descuento jubilatorio?).

 

 

    

 

    Figura 6.36: El monto del ingreso total individual de estas personas esta entre los 100 a 200 pesos.

 

En la segunda agrupación, del 20,68% de la población total, se puede observar que el sexo predominantemente es el masculino (ver fig. 6.38).
 

Sin diferenciarse con el primer clúster, en este en su mayoría siguen siendo de esta localidad o sea Corrientes como se puede apreciar en la fig. 6.39, con un estado civil de viudo/a y con una edad sobresaliente de 46 años (ver fig. 6.40) , respectivamente (ver fig. 6.40).

En la categoría ocupacional el rubro predominante se lo puede visualizar en la fig. 6.41 como el rubro de “ obrero o emplea”.

La actividad económica que resulta ser predominante es la construcción (ver fig. 6.42).

En relación a lo laboral se puede decir que estas personas no poseen cobertura medica, obra social, ni tampoco aportes jubilatorios e incluso no realizanaportes por sí mismos, todo esto se pude comprobar en las siguientes figuras:

(ver fig. 6.43), (ver fig. 6.44), (ver fig. 6.45), respectivamente en la fig. 6.46.

 

   

 

   Figura 6.37: Visualización, de la variable TOT_P12 (ing. de otras ocupaciones).

 

   

 

   Figura 6.38: En el segundo clúster, del 20,68% de la población total se puede apreciar el sexo masculino como el predominante.

 

      

 

    Figura 6.39: La opción “en esta localidad” de la variable CH15 (¿Dónde nació?) sigue siendo la predominante.

 

     

 

    Figura 6.40: Visualización de la variable CH07 ( estado civil).

 

    

 

    Figura 6.41: Visualización de las variables CAT_OCUP(categoría ocupacional).

 

    

 

    Figura 6.42: La variable PP04B_COD (rubro de las actividades económicas para el MERCOSUR).

 

      

 

     Figura 6.43: Visualización de la variables CH08 (cobertura medica).

 

      

 

     Figura 6.44: Visualización del diagrama circular de la variable PP07G4 (obra social).

 

      

 

    Figura 6.45: La opción “No tienen descuento jubilatorio” es la predominante en la variable PP07H (¿Por ese trabajo tiene descuento jubilatorio?).

 

    

 

     Figura 6.46: Resultado en formato de diagrama circular de la variable PP07I (¿Aporta por sí mismo a algún sistema jubilatorio?).

 

El tipo de contrato, con la opción no le dan ni le entregan nada cuando el empleado recibe sus haberes es la opción más frecuente, como puede verse en la fig. 6.47.