Durante estos días hemos estado analizando los diferentes ficheros de datos que proporciona la autoridad de Londres para preparar su “normalización” y procesamiento y definir también el modelo de datos del DW que vamos a construir. Tal y como nos recordaba la gente de BI Fácil, nos hemos encontrado con que la información estaba en unos “estándares muy poco estándares”. Cada fichero esta construido de una manera y no siguen una linea para construir de la misma forma los ficheros de datos. Eso nos ha complicado un poco el procesamiento de la información.
Para que entendamos mejor el ejemplo, anotar que los datos con los que hemos trabajado corresponden a la región de Londres (Greater London o Gran Londres), que incluye la Ciudad de Londres y Westminster, asi como otros 31 distritos. Es una de las nueve regiones de Inglaterra.Desde el año 2000, la región está administrada por la Autoridad del Gran Londres y tiene un alcalde controlado por la Asamblea de Londres. El estatus del Gran Londres es algo inusual. Es la única región de Inglaterra con un amplio poder, una asamblea regional electa y un alto cargo elegido también por elección directa.
Mapa de la Región de Londres
De todos los datos obtenidos de la web de la autoridad del Gran Londres, hemos procesado cada fichero utilizando Talend e integrado los datos en una tabla intermedia normalizada (sería el Datastage de nuestros procesos ETL). Desde esta tabla llenaremos posteriormente el DW.
Tabla Intermedia para Normalizar las estadísticas
Todas las estadísticas esta referidas a un area o distrito de Londres (el area_id) y corresponden a un año en particular. Ademas, hemos seguido una nomenclatura al nombrar las estadísticas y las variables, siendo la primera letra de sus nombres de la siguiente manera:
Nomenclatura | |
Estadistica | Variable |
V Viviendas | N Numero |
P Poblacion | P Porcentaje |
O Ocio | |
C Cultura | |
S Salud | |
E Economia | |
A Automoviles | |
T Politica |
Al concluir el procesamiento de todos los ficheros de datos, en esta tabla dispondremos de todos los datos de estadisticas que nos permitiran el llenado el DW con los datos definitivos y completos. Los datos de resultados de elecciones los hemos procesado e incorporado en una tabla diferente, pues no siguen el patrón del resto de estadísticas. Despues de realizar el procesado de alguno de los ficheros, disponemos de mas de 200 variables de análisis, que podeis consultar en el siguiente documento. Tenemos una información amplia de multiples variables que nos van a permitir analizar muchas cosas. Son las siguientes:
El modelo de datos conceptual para nuestro DW va a ser muy sencillo, pues basicamente esta compuesto de unas pocos atributos ( Año, Area ) y multiples hechos ( las variables de cada una de las estadísticas). Hemos creado dos dimensiones de análisis (Dimensión Tiempo: con los datos de año, decada y siglo y Dimensión Geografica, con los datos de las areas o distritos de londres y su correspondiente zona (circunscripciones)). Para facilitar el manejo del modelo, separamos los hechos (cada una de las variables de las estadisticas) agrupandolos por el tipo de estadística. Creamos para ellos 8 tablas de hechos, una para cada tipo de estadística.
El correspondiente modelo físico de nuestro DW sería el siguiente:
Esquema Fisico DW Londres
Los procesos de carga, como hemos indicado, han procesado en primer lugar cada uno de los ficheros de estadísticas, normalizando los resultados e insertandolos en la tabla intermedia que hemos descrito anteriormente (tabla ds_estadisticas). Una vez procesados todos los ficheros, hemos desarrollado los procesos finales en Talend que a partir de estos datos normalizados, han llenado y consolidado todos los datos de las estadísticas.
Talend - Procesamiento de tabla intermedia Estadisticas
Por si os interesa, os dejo el link al zip con la documentación generada de alguno de los procesos en Talend ( Procesos finales de llenado del DW, Tratamiento de ficheros de elecciones, Lectura de datos del censo correspondientes a grupos etnicos y Procesamiento estadistica de vehículos abandonados). Igualmente, podeís consultar online la documentación en los siguientes links:
- Procesos finales de llenado del DW: inicialización tabla de hechos, llenado de dimensión geográfica y dimensión tiempo y procesamiento final de tabla de estadísticas.
- Tratamiento de fichero de elecciones.
- Lectura de datos de grupos etnicos.
- Estadistica de vehiculos abandonados.
Ahora vamos a explotar toda esta completa información en una seríe de ejemplos utilizando Microstrategy para que veamos las posibilidades que nos ofrece el Business Intelligence con datos públicos.
Para terminar, vamos a hacer un poco de turismo. Os dejo una bonita presentación de fotos de la Ciudad de Londres.
Attachment | Dimensione |
---|---|
A_vehiculos_aband.zip | 162 byte |
ds_area.zip | 162 byte |
Llenado_DW.zip | 162 byte |
londres.xls | 162 byte |
P_grupo_etnico.zip | 162 byte |
T_elecciones.zip | 162 byte |
Ejemplo BI con datos publicos
Submitted by antalopi on 4 June, 2010 - 12:52
Intersantisimo articulo por no decir perfecto. Estoy realizando una practica con Pentaho y me gustaría saber como se ha cargado la tabla operacional ds_area ya que no encuentro la circunsncripcion o area para cada una de las localidades. O al menos el fichero plano donde estan lo tres campos para cargar la dimensión dwd_area.
Muchisimas gracias de antemano
Te paso los ficheros Excel con los datos
Submitted by respinosamilla on 4 June, 2010 - 17:31
In reply to Ejemplo BI con datos publicos by antalopi
Hola:
Los datos los saque de una de las estadísticas, donde estaban los códigos, los nombres y los circunscripciones.
Te he añadido en el post del blog los ficheros (estan el que se llama ds_area.zip).
Un saludo
Muchas gracias. Me está
Submitted by antalopi on 12 June, 2010 - 18:50
In reply to Te paso los ficheros Excel con los datos by respinosamilla
Muchas gracias. Me está sirviendo de gran utilidad.
Saludos