5.2 Instalación del Ambiente Operacional
5.2 Instalación del Ambiente Operacional alfonsocutro 20 Enero, 2010 - 12:05Más allá de que Intelligent Miner puede utilizar como datos de entrada archivos planos, es posible el uso del sistema administrador de bases de datos
DB2 UDB Universal Database, para entre otras cosas, aprovechar las ventajas de las funciones de preproceso de Intelligent Miner, las que trabajan con datos almacenados en servidores de bases de datos (no con archivos planos).
Los pasos para llevar a cabo la Exportación son los siguientes:
• Abrir el archivo (USP_T107.dbf ) con Microsoft Access.
• Seleccionar la tabla (USP_T107 ) y precionando el botón derecho del mouse y se esco je la opción de Exportar.
• Se abrirá una ventana que permitirá selecionar el nombre como así también el tipo de formato del archivo.
• Se inicializa automáticamente el Asistente para la exportacíon, que es el que permite manipular los distintos tipos de delimitadores de caracteres.
• Una vez seleccionados los tipos de delimitadores con los que se separán los campos, se tendrá como resultado final un archivo listo para ser
Importado o Cargado por cualquier Base de Datos.
5.2.1 Selección y Exploración de la Fuente de Datos
5.2.1 Selección y Exploración de la Fuente de Datos alfonsocutro 20 Enero, 2010 - 12:09Inicialmente se dispone de ocho bases de datos en formato de Microsoft Access. Las mismas contienen informacíon de la nueva EPH (Encuesta Permanente de Hogares) cuya muestra incluye 25.000 familias de 31 conglomerados urbanos de la República Argentina con una frecuencia trimestral.
Cada base de datos es llamará base usuaria, compuesta por dos tablas:
• Hogar (Ejemplo: USH_T107 ), base usuaria Hogar del primer trimestres del 2007.
• Persona (Ejemplo: USP_T407 ), base usuaria Persona del cuarto trimestres del 2007.
Para el desarrollo operacional se han considerado únicamente datos de la base de datos Persona. Las diferentes tablas contienen en promedio entre
470.031 y 590.000 registros, con un tamaño de almacenamiento aproximado de 32.000Kb.
Los archivos se visualizan sin inconvenientes con Microsoft Access.
5.2.2 Trabajando en Microsoft Access
5.2.2 Trabajando en Microsoft Access alfonsocutro 20 Enero, 2010 - 12:12Al exportar los datos fuentes se utilizan diversos formatos:
• Texto delimitado por coma (USP_T107.csv ).
• Texto sin ningún tipo de delimitador: Archivos Planos (USP_T107.txt ).
Para este último Microsoft Access tiene la opción llamada Asistente para la vinculación de texto, que permite transformar el texto base en una tabla
relacional con sus corespondientes campos perfectamente definidos.
Para realizar la exportación se recomienda no trabajar con tablas vinculadas, dado que en éstas no se permite realizar modificaciones.
5.2.3 Traba jando con DB2 UDB Universal Database
5.2.3 Traba jando con DB2 UDB Universal Database alfonsocutro 20 Enero, 2010 - 12:24Para el desarrollo de esta tarea no hace falta estar al tanto por completo del DB2 UDB Universal Database, ya que en todo momento se utilizan asistentes. De todas maneras, para una mayor comprensión, se recomienda consultar el Capitulo Nº 2 “Introduccíon al DB2 UDB Universal Database”.
Los pasos que se llevan a cabo son:
• Creación de la base de datos denominada EPH (Encuesta Permanente Hogares).
• Creación de la tabla USP, en la cual se realizarán la carga de archivos planos, exportados con Microsoft Access.
• Visualización del muestreo del contenido.
Creación de la Base de Datos
Seleccionar la opción Crear, utilizando el asistente haciendo click con el botón derecho sobre la carpeta bases de datos (ver fig. 5.1).
Figura 5.1: Creacíon de la base de datos utilizando el Asistente.
Una vez finalizada la creación de la base de datos, se pasa a la realización de las tablas. Para ello, se debe hacer click con el botón derecho sobre la
carpeta Tablas de la base de datos PERSONAS y seleccionar la opcion Crear (ver fig. 5.2).
Luego se carga el Asistente, donde se tendrá que defenir los siguientes pasos:
• Especificar el Esquema y el Nombre de la nueva tabla (ver fig. 5.3).
• Cambiar las definiciónes para cada columna. Presionar el botón Añadir para ir insertando las columnas de la tabla; se deben elegir tipo y carac-terísticas de los datos, como también si estos alo jan nulo (ver fig. 5.4).
Figura 5.2: Selección de la opción crear tablas.
• Definir la clave para su utilización. Para ello se deberá presionar el botón Añadir primaria, luego el asistente mostrará las columnas candidatas,
se seleccionará las adecuadas y presionar la opción >. Luego se presiona Finalizar (ver fig. 5.5).
5.2.4 Cargando Datos Fuentes a DB2 UDB Universal Database
5.2.4 Cargando Datos Fuentes a DB2 UDB Universal Database alfonsocutro 20 Enero, 2010 - 12:34Al hacer click con el botón derecho del mouse sobre la tabla UTP_T107, en la opción Cargar, se inicia al Asistente de Carga de Datos.
Como se visualiza en la fig. 5.6, en la pestaña Especificar archivos de entrada y salida, botón Opciones DEL→ Delimitador de Columna (COLDEL) se debe especificar el delimitador que utiliza el archivo plano, en este caso, el punto y coma(;).
Luego se debe especificar el archivo de entrada (USP_T107.txt ), y el archivo para almacenar los mensa jes de progreso (mensajes.txt ). Es conveniente que estos archivos estén ubicados en el mismo disco donde se encuentra instalado DB2 UDB Universal Database, dado que disminuyen los tiempos de carga.
Figura 5.3: Identificación del esquema y del nombre de la nueva tabla.
Figura 5.4: Cambiar las definiciones de columna para la nueva tabla.
Figura 5.5: Definición de las claves primarias en la nueva tabla.
Para obtener información acerca de los registros cargados se debe leer el archivo (mensaje.txt) especificado en el asistente de carga de datos, el cual contiene datos similares a los que se visualizan (ver fig. 5.7).
Al hacer click con el botón derecho sobre la tabla creada, opción Muestreo del contenido, se puede visualizar datos de la tabla USH_T107, similar al que se puede observar en la fig. 5.8.
5.2.5 Comprensión de Datos
5.2.5 Comprensión de Datos alfonsocutro 20 Enero, 2010 - 12:41Luego de haber exportado los datos y controlado la correcta interpretación de los mismo por el DB2 UDB Universal Database, se observa que existe un total de 47.030 registros.
Variables que contiene esta tabla:
• Identificación.
• Características de los miembros del hogar.
• Ocupados que trabajaron en la semana de referencia.
• Ocupados en general.
• Ocupación principal.
• Ocupación principal de los trabajadores independientes.
• Ingresos de la ocupación principal de los Trabajadores Independientes.
• Ocupación principal de los Asalariados (Excepto Servicio Doméstico).
• Ocupación principal de los Asalariados (Incluido Servicio Doméstico).
• Ingresos de la ocupación principal de los Asalariados.
• Movimientos Interurbanos (sólo para Ocupados).
• Desocupados.
• Desocupados con empleo anterior: (finalizada hace 3 años o menos).
• Ingresos de la ocupación principal.
• Ingresos de otras ocupaciones.
• Ingresos Total Individual.
• Ingresos No Laborales.
• Ingresos Total Familiar.
• Ingresos Per Cápita Familiar.
• Plan Jefas y Jefes de Hogar.
Figura 5.6: Especificación de los archivos de Entrada/Salida en el asistente de carga de datos.
Figura 5.7: Muestreo del contenido del archivo de mensaje de progreso.
Figura 5.8: Muestreo del contenido de la tabla USP_T107 en formato DB2 UDP.
Hasta aquí se ha finalizado la fase de la Instalación del Ambiente Operacional. Esta es de suma importancia ya que determina que las fases sucesivas sean capaces de extraer conocimientos válidos y útiles a partir de la información original.
Se deben observar si los datos con los que se cuenta son suficientes para hallar conocimiento, es decir, si son realmente útiles. Se entiende con el concepto de suficientes no el numero de registros, en cuanto a cantidad, si no la riqueza o importancia de los atributos a tener en cuenta.
Algunas veces, estos datos no pueden proveer la respuesta que se está buscando, por ello la importancia de prestar total atención a este punto.
Otro factor que es de suma importancia es el buen desarrollo del Destino de Depósito, lo que se verá a continuación.