6.2.3 Exploración de los Datos

 Como se hizo mención al principio de este apartado, “la creación de un modelo de minería de datos es un proceso dinámico e iterativo”. Lo que implica que si de los datos logrados, sería conveniente volver a redefinir el problema a tratar.

 

      

 

  Figura 6.9: Visualización de las bases usuarias de la EPH (Encuesta Permanente de Hogares).

 

     

 

     Figura 6.10: Visualización de los documentos de consulta para el uso de la base usuaria.

 

 

Esta etapa de exploración se podría dividir en varias fases, dependiendo de los tipos de análisis y de herramientas a utilizar. En este apartado se utilizará IBM DB2 UDB V8.1, con el que se podrá realizar un análisis de composición de variables para cada uno de los objetivos fijados en la etapa de definición del problema. Por ejemplo: conocer los perfiles socio demográficos de los Planes Jefes y Jefas.

Se tendrá que verificar la existencia de la variable que determina si la persona encuestada es poseedora de ese plan social. Dicha variable en este caso es la PJ1_1, (ver fig. 6.11).

 

     

 

    Figura 6.11: Muestreo del contenido de la variable PJ1_1 (Existencia del plan Jefes Jefas).
 

Para realizar un análisis más exhaustivo a la misma el IBM DB2 UDB V8.1 permite aplicar técnicas de filtrado sin la utilización del códigos SQL (ver fig. 6.12).
 

Se puede obtener así un filtrado más preciso y también el número de registros exactos que cumplen con esas condiciones (ver fig. 6.13).

 

  • Indagar los perfiles Educativos de los Planes Jefes y Jefas.

 

    

 

    Figura 6.12: Filtrado por el Aglomerado Corrientes y por la existencia del Plan Jefa Jefe.

 

    

 

   Figura 6.13: Visualización tanto del contenido como así tambien del número de los registros

  

La dimensión educación está compuesta por las siguientes variables:

CH09: ¿Sabe leer y escribir?.

CH10: ¿Asiste o asistió a algún establecimiento educativo? (colegio, escuela, universidad).

CH11: Ese establecimiento es (público, privado).

CH12: ¿Cuál es el nivel más alto que cursa o cursó?.

CH13: ¿Finalizó ese nivel?.

CH14: ¿Cuál fue el último año que aprobó?.

NIVEL EDUCATIVO: Nivel Educativo.

(ver fig. 6.14).

 

    

 

   Figura 6.14: Muestreo de los valores que asumen las variables.

 

Para el resto de los objetivos específicos se tendrá que realizar lo antes visto, para continuar así con el ciclo de vida del Proyecto de Minería.
 

Considerando estos datos, simplemente se realiza un análisis exploratorios con IBM DB2 UDB V8.1 en busca de información que pueda resultar interesante.Así mismo, se trata de comprender sobre el total de los datos, cuáles pueden ser los más importantes y determinar qué datos se pueden utilizar.
 

Esta fase es muy importante ya que determina que las fases sucesivas sean capaces de extraer conocimiento válido y útil a partir de la información original.Se debe determinar si los datos con los que se cuenta son suficientes para hallar conocimiento, es decir si son realmente válidos.

Algunas veces no resulta obvio que esos datos no puedan proveer las respuestas que se está buscando, por ello la importancia de prestar total atención a este punto.