Preparación del Data Warehouse
Preparación del Data Warehouse alfonsocutro 20 Enero, 2010 - 11:595.1 Introducción
5.1 Introducción alfonsocutro 20 Enero, 2010 - 12:04En este capítulo se describirán las principales etapas para le creación del Data Warehousing. Éstas ya se han visto en el Capítulo Nº1 “Introducción a la
Minería de Datos”, las cuales son:
La fases para la construcción de un Data Warehousing son:
• Fase de Extracción: Los constructores crean los archivos de la base de datos para transacciones y los guardan en el servidor que mantendrá el
almacén de datos.
• Fase de Depuración: Se unifica la información de los datos de forma que permita la inserción en el almacén de datos.
• Fase de Carga: Se transfiere los archivos depurados a la base de datos que servirá como almacén de datos.
5.2 Instalación del Ambiente Operacional
5.2 Instalación del Ambiente Operacional alfonsocutro 20 Enero, 2010 - 12:05Más allá de que Intelligent Miner puede utilizar como datos de entrada archivos planos, es posible el uso del sistema administrador de bases de datos
DB2 UDB Universal Database, para entre otras cosas, aprovechar las ventajas de las funciones de preproceso de Intelligent Miner, las que trabajan con datos almacenados en servidores de bases de datos (no con archivos planos).
Los pasos para llevar a cabo la Exportación son los siguientes:
• Abrir el archivo (USP_T107.dbf ) con Microsoft Access.
• Seleccionar la tabla (USP_T107 ) y precionando el botón derecho del mouse y se esco je la opción de Exportar.
• Se abrirá una ventana que permitirá selecionar el nombre como así también el tipo de formato del archivo.
• Se inicializa automáticamente el Asistente para la exportacíon, que es el que permite manipular los distintos tipos de delimitadores de caracteres.
• Una vez seleccionados los tipos de delimitadores con los que se separán los campos, se tendrá como resultado final un archivo listo para ser
Importado o Cargado por cualquier Base de Datos.
5.2.1 Selección y Exploración de la Fuente de Datos
5.2.1 Selección y Exploración de la Fuente de Datos alfonsocutro 20 Enero, 2010 - 12:09Inicialmente se dispone de ocho bases de datos en formato de Microsoft Access. Las mismas contienen informacíon de la nueva EPH (Encuesta Permanente de Hogares) cuya muestra incluye 25.000 familias de 31 conglomerados urbanos de la República Argentina con una frecuencia trimestral.
Cada base de datos es llamará base usuaria, compuesta por dos tablas:
• Hogar (Ejemplo: USH_T107 ), base usuaria Hogar del primer trimestres del 2007.
• Persona (Ejemplo: USP_T407 ), base usuaria Persona del cuarto trimestres del 2007.
Para el desarrollo operacional se han considerado únicamente datos de la base de datos Persona. Las diferentes tablas contienen en promedio entre
470.031 y 590.000 registros, con un tamaño de almacenamiento aproximado de 32.000Kb.
Los archivos se visualizan sin inconvenientes con Microsoft Access.
5.2.2 Trabajando en Microsoft Access
5.2.2 Trabajando en Microsoft Access alfonsocutro 20 Enero, 2010 - 12:12Al exportar los datos fuentes se utilizan diversos formatos:
• Texto delimitado por coma (USP_T107.csv ).
• Texto sin ningún tipo de delimitador: Archivos Planos (USP_T107.txt ).
Para este último Microsoft Access tiene la opción llamada Asistente para la vinculación de texto, que permite transformar el texto base en una tabla
relacional con sus corespondientes campos perfectamente definidos.
Para realizar la exportación se recomienda no trabajar con tablas vinculadas, dado que en éstas no se permite realizar modificaciones.
5.2.3 Traba jando con DB2 UDB Universal Database
5.2.3 Traba jando con DB2 UDB Universal Database alfonsocutro 20 Enero, 2010 - 12:24Para el desarrollo de esta tarea no hace falta estar al tanto por completo del DB2 UDB Universal Database, ya que en todo momento se utilizan asistentes. De todas maneras, para una mayor comprensión, se recomienda consultar el Capitulo Nº 2 “Introduccíon al DB2 UDB Universal Database”.
Los pasos que se llevan a cabo son:
• Creación de la base de datos denominada EPH (Encuesta Permanente Hogares).
• Creación de la tabla USP, en la cual se realizarán la carga de archivos planos, exportados con Microsoft Access.
• Visualización del muestreo del contenido.
Creación de la Base de Datos
Seleccionar la opción Crear, utilizando el asistente haciendo click con el botón derecho sobre la carpeta bases de datos (ver fig. 5.1).
Figura 5.1: Creacíon de la base de datos utilizando el Asistente.
Una vez finalizada la creación de la base de datos, se pasa a la realización de las tablas. Para ello, se debe hacer click con el botón derecho sobre la
carpeta Tablas de la base de datos PERSONAS y seleccionar la opcion Crear (ver fig. 5.2).
Luego se carga el Asistente, donde se tendrá que defenir los siguientes pasos:
• Especificar el Esquema y el Nombre de la nueva tabla (ver fig. 5.3).
• Cambiar las definiciónes para cada columna. Presionar el botón Añadir para ir insertando las columnas de la tabla; se deben elegir tipo y carac-terísticas de los datos, como también si estos alo jan nulo (ver fig. 5.4).
Figura 5.2: Selección de la opción crear tablas.
• Definir la clave para su utilización. Para ello se deberá presionar el botón Añadir primaria, luego el asistente mostrará las columnas candidatas,
se seleccionará las adecuadas y presionar la opción >. Luego se presiona Finalizar (ver fig. 5.5).
5.2.4 Cargando Datos Fuentes a DB2 UDB Universal Database
5.2.4 Cargando Datos Fuentes a DB2 UDB Universal Database alfonsocutro 20 Enero, 2010 - 12:34Al hacer click con el botón derecho del mouse sobre la tabla UTP_T107, en la opción Cargar, se inicia al Asistente de Carga de Datos.
Como se visualiza en la fig. 5.6, en la pestaña Especificar archivos de entrada y salida, botón Opciones DEL→ Delimitador de Columna (COLDEL) se debe especificar el delimitador que utiliza el archivo plano, en este caso, el punto y coma(;).
Luego se debe especificar el archivo de entrada (USP_T107.txt ), y el archivo para almacenar los mensa jes de progreso (mensajes.txt ). Es conveniente que estos archivos estén ubicados en el mismo disco donde se encuentra instalado DB2 UDB Universal Database, dado que disminuyen los tiempos de carga.
Figura 5.3: Identificación del esquema y del nombre de la nueva tabla.
Figura 5.4: Cambiar las definiciones de columna para la nueva tabla.
Figura 5.5: Definición de las claves primarias en la nueva tabla.
Para obtener información acerca de los registros cargados se debe leer el archivo (mensaje.txt) especificado en el asistente de carga de datos, el cual contiene datos similares a los que se visualizan (ver fig. 5.7).
Al hacer click con el botón derecho sobre la tabla creada, opción Muestreo del contenido, se puede visualizar datos de la tabla USH_T107, similar al que se puede observar en la fig. 5.8.
5.2.5 Comprensión de Datos
5.2.5 Comprensión de Datos alfonsocutro 20 Enero, 2010 - 12:41Luego de haber exportado los datos y controlado la correcta interpretación de los mismo por el DB2 UDB Universal Database, se observa que existe un total de 47.030 registros.
Variables que contiene esta tabla:
• Identificación.
• Características de los miembros del hogar.
• Ocupados que trabajaron en la semana de referencia.
• Ocupados en general.
• Ocupación principal.
• Ocupación principal de los trabajadores independientes.
• Ingresos de la ocupación principal de los Trabajadores Independientes.
• Ocupación principal de los Asalariados (Excepto Servicio Doméstico).
• Ocupación principal de los Asalariados (Incluido Servicio Doméstico).
• Ingresos de la ocupación principal de los Asalariados.
• Movimientos Interurbanos (sólo para Ocupados).
• Desocupados.
• Desocupados con empleo anterior: (finalizada hace 3 años o menos).
• Ingresos de la ocupación principal.
• Ingresos de otras ocupaciones.
• Ingresos Total Individual.
• Ingresos No Laborales.
• Ingresos Total Familiar.
• Ingresos Per Cápita Familiar.
• Plan Jefas y Jefes de Hogar.
Figura 5.6: Especificación de los archivos de Entrada/Salida en el asistente de carga de datos.
Figura 5.7: Muestreo del contenido del archivo de mensaje de progreso.
Figura 5.8: Muestreo del contenido de la tabla USP_T107 en formato DB2 UDP.
Hasta aquí se ha finalizado la fase de la Instalación del Ambiente Operacional. Esta es de suma importancia ya que determina que las fases sucesivas sean capaces de extraer conocimientos válidos y útiles a partir de la información original.
Se deben observar si los datos con los que se cuenta son suficientes para hallar conocimiento, es decir, si son realmente útiles. Se entiende con el concepto de suficientes no el numero de registros, en cuanto a cantidad, si no la riqueza o importancia de los atributos a tener en cuenta.
Algunas veces, estos datos no pueden proveer la respuesta que se está buscando, por ello la importancia de prestar total atención a este punto.
Otro factor que es de suma importancia es el buen desarrollo del Destino de Depósito, lo que se verá a continuación.
5.3 Instalación del Ambiente Datamart
5.3 Instalación del Ambiente Datamart alfonsocutro 20 Enero, 2010 - 12:48En esta fase se definirán todas las tablas correspondientes a las dimensiones y a la tabla de hecho de nuestro análisis del Data Warehouse .
Para mayor comprensión, se recomienda consultar Capitulo Nº1 “Introducción a la Minería de Datos”, precisamente la sección Características del Data Warehouse.
5.3.1 Selección y Exploración de la Destino de Depósito
5.3.1 Selección y Exploración de la Destino de Depósito alfonsocutro 21 Enero, 2010 - 16:07Luego de un arduo estudio sobre la problemática hacia donde se enfoca la EPH (Encuesta Permanente de Hogares), como así también la comprensión
del alcance de las variables a considerar, se ha logrado determinar las siguientes dimensiones :
• Nivel Educativo (ver fig. 5.9).
• Población de Asalariados (ver fig. 5.10).
• Población de Independientes (ver fig. 5.11).
• Población Desocupada (ver fig. 5.15).
• Población Desocupada c/Empleo anterior (ver fig. 5.13).
• Población c/Plan Jefes y Jefas de Hogar (ver fig. 5.12).
• Población Ocupados (ver fig. 5.14).
• Ocupación Principal (ver fig. 5.16).
Siendo la tabla de Hecho :
• Individuos(ver fig. 5.17).
Formando así el esquema en estrella correspondiente (ver fig. 5.18).
Una vez definida todas la dimensiones se deberá exportar estas estructuras a el DB2 UDB Universal Database. Para llevar a cabo esto se debe trabajar de la misma forma que en el apartado anterior “Trabajando con DB2 UDB Universal Database”.
Los pasos son:
• Creación de la base de datos denominada PDESTINO.
Figura 5.9: Visualización de la dimensión Nivel Educativo.
Figura 5.10: Visualización de la dimensión Población de Asalariados
Figura 5.11: Visualización de la dimensión Independientes.
Figura 5.12: Visualización de la dimensión Población Desocupada con Empleo Anterior.
Figura 5.13: Visualización de la dimensión Población c/Plan Jefes y Jefas de Hogar.
Figura 5.14: Visualización de la dimensión Población Ocupados.
Figura 5.15: Visualización de la dimensión Población Desocupada.
Figura 5.16: Visualización de la dimensión Ocupación Principal.
Figura 5.17: Visualización de la dimensión Individuos (HECHO).
Figura 5.18: Visualización de la estructura del esquema en estrella.
• Creación de una tabla por cada dimensión.
• Creación de una tabla que corresponda a la tabla de hecho.
El primer paso utilizando el DB2 UDB Universal Database es creación de la base de datos. En este caso se llamará PDESTINO, hacia donde se exportarán todas las tablas de dimensiones junto con la de hecho (ver fig. 5.19).
Figura 5.19: Creación de la base de datos denominada PDESTINO.
5.4 Introducción al Centro de Depósito de Datos
5.4 Introducción al Centro de Depósito de Datos alfonsocutro 26 Enero, 2010 - 15:36Una vez finalizado con el Ambiente Operacional y el Ambiente Datamart se pasa al Centro de depósito de datos del DB2 UDB Universal Database.
Figura: 5.20: Visualización del icono Centro de depósito de datos.
Cuando se escoge esa opción, el DB2 UDB Universal Database solicita que se ingrese un ID y la Contraseña del usuario, para que la base de datos pueda conectarse al Centro de depósito de datos. Luego se debe presionar el botón Bien (ver fig. 5.21).
Figura 5.21: Iniciando la conexión al centro de depósito de datos.
A continuación aparece la ventana del Centro de depósito de datos (ver fig.5.22).
El en ambiente de traba jo del Centro de depósito de datos, se deberá definir:
• Áreas temáticas.
• Fuentes de depósitos.
• Destino de depósitos.
• Esquemas de depósitos.
• Administración.
Figura 5.22: Visualización del Centro de depósito de datos.
5.4.1 Definición de una Área Temática
5.4.1 Definición de una Área Temática alfonsocutro 26 Enero, 2010 - 15:46Un Área temática identifica y agrupa procesos relativos a un área lógica de la organización.
Por ejemplo, si se está creando un depósito de datos de Marketing y Ventas, se definirá una Área temática Ventas y otra Marketing. Luego se añadirán los
procesos relativos a las ventas deba jo del Área temática Ventas. Del mismo modo, se añadirán las definiciones relativas a los datos de Marketing debajo
del Área temática Marketing.
Definición del Área Temática Encuesta Permanente de Hogares
En el árbol de la izquierda de la ventana del Centro de depósito de datos se debe seleccionar el nodo Áreas temáticas y luego pulsar Definir.
Se abrirá el cuaderno de Propiedades del área temática (ver fig. 5.23)
Figura 5.23: Definición del Area Temática (Encuesta Permanente de Hogares).
Donde se cargarán los siguientes campos:
• Nombre, nombre comercial del área temática, para este caso: Encuesta Permanente de Hogares.
• Descripción, sinopsis del área temática: Cont. información sobre los Individuos de la Encuesta Permanente de Hogares.
También se puede utilizar el campo Notas para proporcionar información adicional sobre el área temática.
Pulsando en el botón Bien, se permitirá crear el área temática en el árbol del Centro de depósito de datos (ver fig. 5.24).
5.4.2 Definición de las Fuentes de Depósito
5.4.2 Definición de las Fuentes de Depósito alfonsocutro 27 Enero, 2010 - 11:56El Centro de depósito de datos utiliza las especificaciones de las Fuentes de Depósito para acceder a los datos y seleccionarlos.
Figura 5.24: Definición culminada de área temática.
El DB2 UDB Universal Database permite que estas puedan ser:
• Fuentes relacionales: Correspondiente a la tabla fuente USP_T107 de la base de datos Personas.
• Fuentes de archivos: Correspondiente a los archivos de texto plano (USP_T107.txt) sin delimitadores o delimitados por coma, (USP_T107.csv ).
Como se había mencionado en el apartado Instalación del Ambiente Operacional, si se están utilizando bases de datos fuente que son remotas para el servidor de depósito, se debe registrar las bases de datos en la estación de traba jo que contiene el servidor de depósito.
Definición de una Fuente de Depósito Relacional
Se definirá una Fuente de Depósito Relacional llamada Fuente de Deposito Relacional de la EPH. La nombrada anteriormente corresponde a la tabla relacional USP_T107 que se proporciona en la base de datos Personas.
Procedimientos:
Se debe pulsar con el botón derecho sobre la carpeta Fuentes de depósito y selecionar Definir Familia de DB2. Luego se abrirá el cuaderno Definir fuente de depósito (ver fig. 5.30).
Figura 5.25: Definicion de la fuente de depósito (Fuente de Deposito Relacional de la EPH).
Donde se introduce la siguiente información en los campos:
• Nombre de fuente de depósito, se escribe el nombre comercial de la fuente de depósito: Fuente de Deposito Relacional de la EPH. Se utilizará este nombre para hacer referencia a la fuente del depósito en el Centro de depósito de datos.
• Administrador, se escribe un nombre de contacto para la fuente de depósito: alfonso.
• Descripción, se introduce una breve descripción de los datos: Cont. informacion en Tablas Relacionales sobre los Individuos de la EPH. Luego se realiza una pulsación sobre la pestaña Base de datos.
Luego se introduce la siguiente información en los campos:
• Nombre de la base de datos: Personas (base de datos física).
• ID de usuario: alfonso (id de acceso a la base de datos).
• Contraseña: clave de acceso correspondiente al ID de usuario que accederá a la base de datos (ver fig. 5.26).
Se utilizará el ID de usuario y la Contraseña que se especificó al crear la base de datos de ejemplo en el apartado “Introduccíon a el Centro de depósito de datos”.
Figura 5.26: Selección de la base de datos para la Fuente de depósito.
El Centro de depósito de datos muestra una ventana de progreso. La importación puede tardar unos minutos.
Después de finalizada la importación, el Centro de depósito de datos visualiza los objetos importados en el árbol de ob jetos, Tablas y Vistas disponibles.
Luego se selecciona la tabla USP_T105 ; pulsando > (ver fig. 5.27).
De esta manera la tabla USP_T105 se traslada a la lista Tablas y vistas seleccionadas. (ver fig. 5.28). Luego se pulsa el botón Bien.
Figura 5.27: Visualización de las Tablas y vistas disponibles.
Figura 5.28: Visualizacion de las Tablas y vistas seleccionadas.
Figura 5.29: Visualización de las Tablas de depósito cargadas a el Centro de depósito de datos.
Se guardarán los cambios y se cerrará el cuaderno Definir fuentes de depósito (ver fig. 5.29).
Debe repetir este proceso hasta que renombre el resto de las columnas de la tabla USP_T107.
Luego se deberá pulsar Bien. Y se cerrará el Cuaderno Archivo.
5.4.3 Definición de Destinos de Depósito
5.4.3 Definición de Destinos de Depósito alfonsocutro 27 Enero, 2010 - 12:30Los Destinos de depósito identifican la base de datos y las tablas que el Centro de depósito de datos debe utilizar para el depósito. Normalmente, las tablas de destino que se definen en el destino de depósito son las tablas de mediciones y de hechos del esquema en estrella. Sin embargo, el destino de depósito puede incluir también tablas de destino intermedias que se utilizan para la transformación de datos.
Figura 5.30: Visualización del Cuaderno Destino de depósito.
Definición de un Destino de Depósito
Para definir el Destino de depósito:
Se efectúa una pulsación con el botón derecho del ratón en la carpeta Destinos de depósito, luego en la opción Definir y se desplegará la lista Tipo de destino de depósito, se debe seleccionar allí la opción DB2 UDB Universal Database. De esta manera se abrirá el cuaderno Destino de depósito (ver fig. 5.30).
A continuación se deberán llenar los correspondientes campos:
• Nombre: nombre comercial del destino de depósito: Destino de deposito de la EPH.
• Administrador: contacto para el destino de depósito.
• Descripción: sinopsis de los datos: Contiene todas las tablas de destino de Depósito.
Pulsando sobre la pestaña base de datos, se debe llenar los correspondientes campos:
• Nombre de base de datos: Ppdestino.
• Id de usuario: identificación de acceso a la base de datos.
• Contraseña: clave correspondiente al id de usuario.
• Verificar contraseña: Repetir la clave.
• Luego aceptar los valores por omisión para el resto de los controles de la página.
Desplegar la pestaña Tablas en el cuaderno Destino de depósito.
Luego expandir el árbol hasta encontrar la carpeta Tablas y seleccionar todas:
• Asalariados.
• Independientes.
• Individuo.
• Nivel _ educativo.
• Ocupación _ principal.
• Pob_con_Plan_Jefes_y_Jefas.
• Pob_Desocupada.
• Pob_Desocupada_con_empleo_Anterior.
• Pob_Ocupado.
Luego pulsar el botón >, y aparecerán listadas en el panel Tablas seleccionadas (ver fig. 5.31).
Figura 5.31: Visualización de las Tablas disponibles del cuaderno Destino de depósito.
5.4.4 Definición del Movimiento y Transformación de Datos
5.4.4 Definición del Movimiento y Transformación de Datos alfonsocutro 27 Enero, 2010 - 13:20En esta sección, se definirá el modo en que el centro de depósito de datos debe mover y transformar datos para darles el formato adecuado al depósito de datos. En primer lugar, se definirá un proceso que contenga una serie de pasos que permitan la transformación y movimiento de los mismos. A continuación, se especificarán las tablas fuente que deben transformarse para el depósito. Finalmente, se definirán los pasos de transformación de datos de la siguiente manera:
• Se seleccionan los datos fuente que se unirán a las tablas a través de sentencias de SQL. Específicamente, se definirá el proceso llamado Introducir datos en el DW, que realiza lo siguiente:
— Se seleccionan los datos de la tabla USP_T105NUEVA y se los transfiere a sus respectivas tablas de destino, logrando el llenado total de las tablas.
Definición de un Proceso
Para la definicíon del ob jeto del proceso se debe realizar lo siguente:
• Desde la ventana del centro de depósito de datos, se expande el árbol Áreas temáticas .
• Se selecciona el Área temática Armando el DW de la EPH, que se ha definido con anterioridad.
• Se efectúa una pulsación con el botón derecho del ratón en la carpeta Procesos y luego se pulsa Definir.
• Se abrirá el cuaderno Definir proceso :
— Nombre: se escribe el nombre del proceso: Introducir datos en el DW. El mismo puede tener un máximo de 80 caracteres de longitud y es sensible a mayúsculas y minúsculas. El primer carácter del nombre debe ser alfanumérico. No puede utilizar un & como primer carácter. Este campo es obligatorio.
— Administrador: se escribe un nombre de contacto para la definición del proceso.
— Descripción: se escribe la descripción del proceso: este es un proceso que permitirá transportar los datos desde unas entidades fuentes a las entidades depósitos de datos (ver fig. 5.32).
Luego se deberá pulsar la pestaña Seguridad.
En la lista Grupos de seguridad disponibles, se selecciona el Grupo de depósito de la guía de aprendizaje pulsando el botón >.
El Grupo de depósito de la guía de aprendizaje se visualiza en el panel de Grupos de seguridad seleccionados. Pulsando el botón Bien.
Se cerrará el cuaderno definir proceso.
Apertura del proceso
Se abrirá el proceso de modo que se pueda definir gráficamente el flujo de datos del mismo.
Figura 5.32: Visualización de las propiedades del cuaderno definir proceso.
Para abrir el proceso en este caso, se debe Introducir datos en el DW :
• Efectuar una pulsación con el botón derecho del ratón en el proceso Introducir datos en el DW.
• Pulsar el botón Abrir, y se abrira el Modelador de proceso (ver fig. 5.33).
Adición de Tablas a un Proceso
Para definir el flujo de datos, es necesario unir cada fuente, transformadas previamente, con las tablas de destino resultantes..
En el proceso Introducir datos en el DW, se cargarán los datos de la Encuesta Permanente de Hogares EPH, precisamente del primer trimestre del 2005, por lo que es necesario unir la tabla fuente USP_T105NUEVA con las tablas de destinos (Asalariados, Independientes, Individuo,Nivel _ educativo, Ocupación _ principal, Pob_con_Plan_Jefes_y_Jefas, Pob_Desocupada, Pob _Desocupada_con_empleo_Anterior, Pob_Ocupado).
Figura 5.33: Visualización del Modelador de Proceso.
Figura 5.34: Visualización del icono añadir datos.
La tabla USP_T105NUEVA forma parte de la fuente de depósito, que se ha definido en el apartado Definición de una Fuente de Depósito Relacional y las definiciónes de las tablas destino de depósito en el apartado Definición de un Destino de Depósito.
Para añadir una tabla fuente al proceso se debe realizar lo siguiente:
• Pulsar el icono Añadir datos (ver fig. 5.34).
• Pulsar sobre la cuadrícula en el punto donde se desea colocar la tabla. Se abrirá la ventana Añadir datos.
• En la lista Tablas fuente y destino disponibles, expandir el árbol Fuentes de depósito. Se visualizará una lista de las Fuentes de depósito definidas en el depósito (ver fig. 5.35).
Figura 5.35: Visualizacion de las Tablas fuente disponibles y seleccionadas.
• Expandir el árbol para la fuente de depósito Fuente de Deposito Relacional de la EPH.
• Seleccionar la tabla USP_T105NUEVA.
• Pulsar el botón > para añadir la tabla USP_T105NUEVA a la lista Tablas fuente y destino seleccionadas.
Para añadir la tabla de destino:
• Pulsar el icono Añadir datos (ver fig. 5.34):
• Pulsar sobre la cuadrícula en el punto donde se desea colocar la tabla. Se abrirá la ventana Añadir datos.
• En la lista Tablas fuente y destino disponibles, expandir el árbol Destinos de depósito. Se visualizará una lista de los destinos de depósito definidos en el depósito.
• Desplegar el árbol de destino de depósito Destino de Encuesta Permanente de Hogares.
• Desplegar el árbol Tablas. Deberá verse en la lista tablas de fuente y de destino disponibles :
— Asalariados
— Independientes
— Individuo
— Nivel _ educativo
— Ocupación _ principal
— Pob_con_Plan_Jefes_y_Jefas
— Pob_Desocupada
— Pob_Desocupada_con_empleo_Anterior
— Pob_Ocupado
Ver fig. 5.36
Figura 5.36: Visualización de las tablas de Destino de Depósito.
• Seleccionar la tabla de destino Nivel _ educativo.
• Pulsar > para añadir la tabla de destino Nivel _ educativo a la lista Tablas fuente y destino seleccionadas.
Adición de Pasos al Proceso
Ahora, es necesario añadir los pasos que definen cómo deben transformarse los datos fuente (Fuente de Destino) en datos de destino (Destino de Depósito).
En el siguiente apartado, se definirán los pasos SQL Select e Insert que permitirán la tranformacion de datos.
Definición del paso intro de datos a nivel_educativo :
• Desde la paleta, pulsar el icono SQL (ver fig. 5.37).
Figura 5.37: Visualización del icono introducir SQL.
• Pulsar en el punto de la cuadrícula donde desee colocar el Paso. Se añadirá a la ventana un ícono para el Paso.
• Hacer clic con el botón derecho del ratón sobre el ícono Paso, creado previamente.
• Pulsar el botón Propiedades, de esta menera se abrirá el cuaderno Paso (ver fig. 5.38). Luego completar los siguientes datos:
— Nombre: nombre del paso: intro de datos a nivel_educativo.
— Administrador: nombre de contacto para el paso.
— Descripción: breve información indicando lo que realiza dicho paso.
• Luego pulsar el botón Bien. Se cerrará el cuaderno Paso.
Figura 5.38: Visualización de las propiedades del paso intro de datos a nivel_educativo.
Figura 5.39: Visualización del icono Flujo de Datos.
• Pulsar el ícono Herramientas de enlace (ver fig. 5.39).
• Luego pulsar el ícono Enlace de datos, (ver fig. ??).
Figura 5.40: Visualización del icono Enlaces de datos.
• Pulsar en el medio de la tabla fuente de USP_T105NUEVA y arrastrar el ratón hasta el medio del paso intro de datos a nivel_educativo. El centro de depósito de datos traza una línea que indica que la tabla fuente de USP_T105NUEVA contiene los datos fuente para el paso.
• Pulsar en el medio del paso intro de datos a nivel_educativo hasta la tabla destino de depósito NIVEL_EDUCATIVO.
Una vez enlazada una tabla de destino con el paso, el centro de depósito de datos traza una línea que indica que los resultados de la consulta del paso se alojarán en la tabla de destino de depósito (ver fig. 5.41).
• Pulsar con el botón derecho del ratón en el paso intro de datos a nivel_educativo.
• Pulsar la opción Propiedades y se abrirá el cuaderno Paso.
• Luego pulsar la pestaña Sentencia de SQL .
• Pulsar Crear SQL para que el Centro de depósito de datos genere automáticamente el código SQL correspondiente (de lo contrario, se podrá escribir la sentencia directamente).
• Se abrirá el Asistente de SQL.
• Se seleccionará la pestaña Tablas, se debe verificar si la tabla USP_T105NUEVA está seleccionada.
Figura 5.41: Visualizacion del esquema del paso, Introducir datos en el DW.
Figura 5.42: Selección de las columnas que deben unirse en la sentencia de SQL.
• Pulsar la pestaña Columnas (ver fig. 5.42).
• Pulsar el botón >> para añadir todas las columnas de la tabla USP_T105NUEVA.
• Luego seleccionar la pestaña Revisar, de esta manera se podrá visualizar la consulta SQL (ver fig.5,43).
Figura 5.43: Visualización de la sentencia de SQL, con los campos antes seleccionados.
• Al pulsar el botón Bien, se cerrará el Asistente SQL.
• Seleccionar la pestaña Correlación de columnas, verificando si las columnas fuente se correlacionan con las columnas de destino correctas (ver fig. 5.44).
• Luego se debe precionar el botón Acciones y la opción correlacionar todos por posición. De esta forma se podrá correlacionar las columnas de ambas tablas (ver fig. 5.45).
• Seleccionar la pestaña Opciones de Proceso y luego en Agregar en la opción Tipo de llenado.
• Para finalizar se debe seleccionar el botón Bien.
Figura 5.44: Visualización de las columnas fuente que se debe correlacionar con las columnas de destino.
Figura 5.45: Visualización de la acción correlación por posición.
Prueba de los pasos
En este apartado se ejecutará el paso intro de datos a nivel_educativo de manera que se pueda comprobar la correcta definición de los procedimientos realizados anteriormente.
Para promocionar el paso intro de datos a nivel_educativo :
• Desde la ventana Modelo de proceso correspondiente al proceso Introducir datos en el DW efectuar una pulsación con el botón derecho sobre el paso intro de datos a nivel_educativo.
• Pulsar en la opción Modalidad y luego en Prueba (ver fig. 5.46).
Figura 5.46: Visualización del cambio de Modalidad Desarrollo a la de Producción.
Una ventana de confirmación le solicitará si desea guardar el proceso.
• Pulsar Sí o de lo contrario guardar los cambios pulsando en el ícono con forma de diskette de la barra de herramientras (ver fig. 5.47)
Figura 5.47: Visualización del icono Diskette.
Figura 5.48: Visualizacion del Modelador de Proceso, que se encuentra bloqueado.
Luego se iniciará el centro de depósito de datos para crear la tabla de destino mostrando una ventana de progreso. Antes de iniciar el procedimiento siguiente, esperar a que el centro de depósito de datos finalice el proceso, esto puede tomar varios minutos. Una vez que el centro de depósito de datos finaliza, se visualiza un candado de seguridad indicando que no se podrán realizar modificaciones en el futuro (ver fig. 5.48).
• Luego se debe selecionar la opción Prueba.
El centro de depósito de datos muestra una ventana de progreso una vez que finalizado.
• Pulsar con el botón derecho del ratón y esco jer la opción muestreo de contenido en la tabla destino de depósito NIVEL_EDUCATIVO (ver fig. 5.49).
Figura 5.49: Visualización del contenido de la tabla destino de depósito NIVEL_EDUCATIVO.
5.4.5 Definición de Claves de Tablas de Destino de Depósito
5.4.5 Definición de Claves de Tablas de Destino de Depósito alfonsocutro 27 Enero, 2010 - 13:51En esta sección se definirán las claves principales y foráneas de tablas de destino para utilizarlas posteriormente en una unión. Previamente debe haberse definido las tablas de mediciones y la tabla de hechos.
En cada tabla de destino, se seleccionará una columna que se podrá utilizar para identificar de modo exclusivo las filas de la tabla. Esta será su clave principal.
Cualidades de las columnas que deben seleccionarse como clave principal:
• Siempre debe tener un valor: la columna de una clave principal no puede contener valores nulos.
• Debe tener valores exclusivos: cada valor de la columna debe ser distinto para cada fila de la tabla.
• Los valores deben ser estables: un valor nunca debe cambiar por otro valor.
La definición de una clave principal para una tabla es altamente recomendable porque la identificación exclusiva de cada fila agiliza el acceso a las mismas.
Las claves foráneas se utilizan para definir las relaciones entre tablas.
En un esquema en estrel la, una clave foránea define la relación entre la tabla de hechos y las tablas de mediciones asociadas a la misma. La clave principal de la tabla de mediciones tiene una clave foránea correspondiente en la tabla de hechos.
La clave foránea requiere que todos los valores de una columna determinada de la tabla de hechos existan en la tabla de mediciones.
A continuación se definirán la claves principales y foráneas.
Definición de una Clave Principal
Procedimientos para obtener una clave principal:
• Seleccionar la carpeta Destino de Deposito del Centro de control del depósito de datos y escoger tabla Individuos . Se obtiene la ventana Propiedades.
• Presionar la pestaña claves primaria de depósito.
• En columnas disponibles, seleccionar los campos: (CODUSU, NRO_HOGAR, COMPONENTE, H15, ANO4, TRIMESTRE, REGION, MAS_500, AGLOMERADO, PONDERA) como clave principal.
• Oprimir > para trasladar los campos a Columnas de claves principales.
• Dejar el campo nombre de restricción vacío, de modo que DB2 Universal Database genere un nombre de restricción.
Una clave principal puede considerarse como una restricción, porque todos los valores de la columna seleccionada deben ser exclusivos (ver fig. 5.50).
Figura 5.50: Obtencion de claves primarias de depósito.
• Presionar el botón Bien para guardar las definiciones.
Se deberá relizar los mismos pasos para definir claves principales para las otras tablas de destino.
Definición de Clave Foránea
Es necesario definir claves foráneas para las relaciones entre la tabla Individuos y las demás tablas de destino (Asalariados, Independientes, Individuo, Nivel _ educativo, Ocupación _ principal, Pob_con_Plan_Jefes_y_Jefas, Pob_Desocupada, Pob_Desocupada_con_empleo_Anterior, Pob_Ocupado).
Para definir las claves foráneas :
• Visualizar la tabla Asalariados en la lista de tablas de la base de datos PDESTINO. Luego pulsar con el botón derecho del ratón en la tabla y presionar Modificar.
Apertura del cuaderno Modificar tabla:
• Pulsar pestaña Claves foráneas.
• Pulsar Añadir. Se abrirá la ventana Añadir clave foránea.
• Esquema de tabla: escribir el ID de usuario.
• Nombre de tabla: especificar Individuos, que es la tabla padre. Elcampo Clave principal muestra la clave principal para Individuos.
• Columna disponible: se deberá seleccionar (CODUSU, NRO_HOGAR, COMPONENTE, H15, ANO4, TRIMESTRE, REGION, MAS_500, AGLOMERADO, PONDERA) como las columnas que se desean definir como clave foránea.
• Pulsar > para trasladar (CODUSU, NRO_HOGAR, COMPONENTE, H15, ANO4, TRIMESTRE, REGION, MAS_500, AGLOMERADO, PONDERA) a la lista Clave foránea.
• Aceptar los valores por omisión para los campos en la supresión y en la actualización.
• Dejar el campo Nombre de restricción vacío, de modo que DB2 Universal Database genere un nombre de restricción.
Una clave foránea puede considerarse como una restricción, porque para cada valor de la columna de clave foránea de la tabla dependiente hay una fila de la tabla padre con un valor coincidente en la columna de clave principal del padre.
• Una vez finalizado, se deberá pulsar el botón Bien para guardar las definiciones.
• Realizar los mismos pasos para definir claves foráneas para las otras tablas de destino (ver fig. 5.51).
Figura 5.51: Definición de claves foráneas de depósitos.
Creación de un Esquema en Estrella Desde el Centro de Depósito de Datos
Se creará un esquema en estrella desde las tablas de depósito especificadas con anterioridad.
Se podrá utilizar este esquema en estrella para consultas en la base de datos de depósito. También se podrá exportar el esquema en estrella a OLAP Integration Server para crear una base de datos OLAP.
Definición de un Esquema en Estrella
En este apartado se definirá el esquema en estrella que debe contener las tablas de mediciones y de hechos ya definido en la sección Instalación del Ambiente Datamart.
Para definir un Esquema en estrella se debe realizar los siguentes pasos:
• Desde el Centro de depósito de datos, pulsar con el botón derecho del ratón en la carpeta Esquemas de depósito y luego en Definir.
• Se abrirá el cuaderno Definir esquema de depósito.
• Nombre: del esquema, Esquema de la EPH.
• Administrador: contacto para el esquema.
• Descripción: breve comentario del esquema: esquema en estrel la de Encuesta Permanente de Hogares.
• Aceptar el resto de los valores.
• Seleccionar el recuadro Utilizar solo una base de datos.
• Desde la lista Base de datos de destino de depósito, seleccionar PDESTINO (ver fig. 5.52 ).
• Pulsar el botón Bien para definir el esquema de depósito.
El esquema de depósito se añade al árbol debajo de la carpeta Esquemas de depósito.
Figura 5.52: Visualización del Cuaderno de Definicíon del esquema de depósito.
Apertura del Esquema en Estrella
Para abrir el esquema de depósito se debe ralizar lo siguente:
• Hacer una doble pulsación en el esquema de depósito Esquema de la EPH.
• Pulsar el botón Abrir.
Adición de Tablas al Esquema en Estrella
Para adicionar las tablas de mediciones y las tablas de hechos (Asalariados, Independientes, Individuo, Nivel _ educativo, Ocupación _ principal, Pob_con_Plan_Jefes_y_Jefas, Pob_Desocupada, Pob_Desocupada_con_empleo_Anterior, Pob_Ocupado) al esquema en estrella se debe desarrollar los siguientes procedimientos:
• Pulsar el ícono Añadir datos.
• Pulsar sobre la cuadrícula en el punto donde desea colocar las tablas. Se abrirá la ventana Añadir datos.
• Expandir el árbol Destinos de depósito hasta que se visualice una lista de tablas bajo la carpeta Tablas.
• Seleccionar la tabla Asalariados.
• Pulsar > para añadir la tabla Asalariados a la lista Tablas fuente y destino seleccionadas.
• Repitir los dos últimos pasos, para añadir el resto de las tablas.
• Pulsar el botón Bien.
Las tablas que se han seleccionado anteriormente se visualizarán en la ventana Modelo de esquema de depósito (ver fig. 5.53)
Figura 5.53: Adición de las tablas de mediciones y las de hechos al esquema de estrella.
Unión Automática de Tablas en el Esquema en Estrella
Para lograr la fusión de las tablas dentro del Centro de Deposito de Datos, se utilizarán las claves principales y foráneas.
Para realizar la unión automática de las tablas de mediciones y las tablas de hechos se debe tener en cuenta lo siguiente:
• Selección de tablas (Asalariados, Independientes, Individuo, Nivel _ educativo, Ocupación _ principal, Pob_con_Plan_Jefes_y_Jefas, Pob_Desocupada, Pob_Desocupada_con_empleo_Anterior, Pob_Ocupado) manteniendo pulsada la tecla Ctrl y pulsando en cada tabla.
• Presionar el ícono Unión automática en la barra de herramientas.
• El Centro de depósito de datos traza líneas verdes entre las claves principales de las tablas de mediciones y las tablas foráneas de la tabla de hechos. Se pueden cambiar estas líneas hasta que guarde el traba jo (para eliminar las líneas, se debe realizar una selección múltiple pulsando con el botón derecho del ratón y luego Eliminar).
• Pulsar el ícono Guardar de la barra de herramientas para guardar el trabajo: las líneas verdes de unión automática se vuelven negras (ver fig. 5.54 y 5.55 ).
Figura 5.54: Visualización del Modelo de Estrella después de la unión automática.
Figura 5.55: Visualización del Modelo de Estrella luego de utilizar la opción ocultar columnas.