Explotando los datos públicos de Londres con Microstrategy.

Con los datos de Londres recién sacados del horno y cargados en la base de datos, hemos construido un proyecto dentro de Microstrategy, dando de alta los atributos y sus jerarquias, todos los indicadores vistos, así como otros indicadores adicionales para el calculo de porcentajes o valores intermedios. El proyecto de analisis se ha simplificado lo máximo posible, pues no es nuestro objetivo considerar todas las posibles variantes y casuisticas que nos podriamos encontrar, pero si el plantear una serie de ejemplos reales que nos permitan ver las posibilidades de analisis que se presentan con los datos públicos y ver el partido que se podría sacar de ellos.

Definicion del modelo de datos en Microstrategy

Resultados de elecciones

Hemos procesado los ficheros de resultados de elecciones europeas de 2004 y 2009, así como las elecciones regionales de 2004. Para analizar los resultados, hemos creado un informe donde podemos seleccionar el año de la elección a visualizar, el tipo de elección de ese año, y el area de Londres de la que queremos ver el resultado. Para ello, añadimos los atributos Año, Tipo Elección y Area en la sección de paginación del informe, y los indicadores de análisis en las columnas (tenemos la opción en cada criterio de selección de indicar el valor Total para ver toda la información). Por ejemplo, en la imagen estamos viendo los resultados de las elecciones Europeas de 2004 para todas las areas de Londres.

 

Resultados Electorales - Porcentaje por Partido Politico

Igualmente, hemos definido otro gráfico para poder ver de una forma rápida la evolución del voto en las tres elecciones que hemos analizado. En este informe, igualmente, permitimos ver el analisis del total de resultados o el análisis de un distrito en concreto. Así podemos ver que area es de voto Conservador o de Izquierdas, y como ha evolucionado el voto. Por ejemplo, en la imagen podeis ver los datos del distrito de Newham, que es mayoritario de voto Socialista (Partido Laborista), ademas con un aumento de este partido en las últimas elecciones.

 

Comparativa Evolución Voto por Partido

Para cerrar el tema de los resultados electorales, hemos construido un informe resumen de resultados (con los valores númericos), incluyendo datos de participación, total de votos y porcentajes. Igualmente, podemos ver los resultados totales de la región o el detalle de cada distrito.

,

Datos Completos de Resultados Electorales y Participacion

 

Evolución del precio de la vivienda.

De todas las estadísticas relacionadas con la vivienda, tenemos tres muy interesantes (además con una serie temporal amplia que incluye varios años). En concreto, son los valores de precio medio de venta de las viviendas, el número de ventas realizadas en el ejercicio y el total de viviendas construidas (inicio de construccion). Hemos juntado las tres variables de análisis en un informe grafico de ejes de lineas verticales con dos ejes. Ademas, hemos incluido para todas las variables un linea de tendencia lineal para ver hacia donde apuntan los valores futuros según los serie histórica. El resultado del informe es el siguiente:

 

Evolucion Anual del Precio de la Vivienda, Ventas y Construccion

Como podeis ver, en Inglaterra también estan viviendo su propia crísis inmobiliaria con una bajada profunda de las ventas de casas, asi como una estabilización e incluso descenso moderado de los precios debido a la bajada de la demanda y a la crisis financiera. Sería interesante ver este mismo informe con los datos reales de nuestro pais.

Series Históricas de Poblacion.

Los datos de población histórica, incluidos en los datos públicos de Londres, abarcan desde el año 1801 al 2001. Estos datos pueden ser interesantes para ver series y poder ver como se ha modificado la población historicamente de forma general o en cada zona en particular. En el ejemplo siguiente, podeis ver la evolución por Zona (Circunscripción), desde el año 1901 al 2001.

Evolucion Poblacion 1901-2001 por Zona (Circunscripcion)

Utilizando la misma información, hemos preparado un documento Pdf que muestra, para cada distrito o area, la evolución de la población desde 1901 hasta la actualidad, comparandola con la evolución de la población total. Hemos generado la información utilizando un documento que se ha exportado en formato Pdf para su distribución. Os dejo el acceso al documento para que lo veais:

Distribución de población por edad.

En todo análisis demográfico que se precie, es de gran interes el estudio de la distribución de la población por edades. Esto determina muchos aspectos, como pueden ser las necesidades de colegios en una zona (al tener gran cantidad de población infantil), los servicios sociales para atender población jubilada (si el numero de personas de determinadas edades es muy grande), o simplemente para ver como evoluciona la población en la llamada piramide poblacional.

Con los datos del censo de 2001 referente a edades, hemos elaborado dos interesantes gráficos. En el primero, vemos de forma conjunta la distribución de la población total y de cada uno de los distritos de Londres. Es muy gráfico pues se ve toda la información junta y es sencillo realizar comparaciones y ver pesos de cada rango de edades.

 

Distribucion de la poblacion por Edad - Comparativa de todos los distritos

Hemos incluido la misma información en otro gráfico para poder ver de forma mas clara la piramide poblacional para cada distrito de forma separada (o para el total de la población de Londres). El resultado es el siguiente:

 

Distribucion de la Poblacion por Edad - Total de la Region de Londres

Podemos observar que mas de la mitad de la población tiene una edad superior a 30 años. Esto puede adelantar problema de envejecimiento de la población en el horizonte de dentro de 20 años (como ocurre, por ejemplo, en España). Incluso, podemos ver en el primer gráfico como la población de la ciudad de Londres (area llamada City of London), esta especialmente envejecida, pues casi el 75% de la población tiene mas de 30 años.

Economia.

Un tema muy de moda en todos los paises es la economía sostenible. De los datos de Londres, referidos a este tema, hemos analizado los ratios de reciclado de basuras (evolución histórica entre los años 1999-2009). Para ello, hemos utilizado un informe tipo tabla, usando umbrales para procesar los porcentajes de una forma mas visual. Veamos los resultados:

 

Informe de Ratios de Reciclado de Basuras (Evolución)

De forma gráfica, se ve claramente el aumento de los ratios de reciclado, lo que indica la concienciación cada vez mayor de la gente. Se podría completar esta información con el número de contenedores instalados para poder establecer políticas que permitieran aumentar los valores.

 

Grafico Evolucion Reciclaje por Circunscripcion

Otro aspecto muy interesante de estudio dentro de la economia es la población activa e inactiva y su distribución. Veamos un ejemplo de análisis con la información del censo del año 2001. Para ello, hemos construido un documento de Microstrategy del tipo tablero, donde hemos incluido la información de la distribucion de la poblacion por actividad (activos y no activos), y dentro de cada grupo, su detalle. La información se presenta de forma global y también desglosada por Sexo. El tablero nos permite igualmente ver la información total de la región de Londres o ver de forma detallada cada uno de los distritos.

Analisis de Actividad de la Población

Del informe se obtienen bastantes conclusiones curiosas. El porcentaje de mujeres inactivas es claramente superior al de los hombres (40% frente al 18% de los hombres). Igualmente, las mujeres aceptan mas trabajos a tiempo parcial que los hombres, y hay mas hombres autonomos que mujeres. De las personas que se dedican a cuidar a los niños y el hogar, el porcentaje de hombres es infimo con respecto al de las  mujeres (todo ello lógico, pues son más las mujeres que renuncian a trabajar o aceptan trabajos de menos horas para poder compaginar vida laboral y familiar).

Vehiculos

La información referente a los vehículos de una ciudad también puede resultar interesante. En nuestro ejemplo hemos combinado la siguiente información en un tablero: evolución del número de vehiculos en una serie temporal, evolución de la población para analizar el contexto del número de habitantes, distribución del numero de vehículos por hogar ( hogares sin vehiculo, hogares con 1 vehiculo, con 2, con 3 o con 4 o mas), distribución de vehículos por tipo y propietario (particulares o empresas/organismos), tipos de vivienda y evolución del precio de la vivienda. Con estos ultimos dos datos intentamos dar el contexto economico a la estadística (seguramente en zonas con viviendas con precios mas alto hay mas nivel adquisitivo y seguramente mas vehiculos o mas vehiculos por hogar). Igualmente, si la zona es residencial (tipo de viviendas bungalow o casas), también habrá mas vehiculos por hogar. El resultado del informe es el siguiente:

 

Tablero de Analisis de Parque Movil por Distrito

Hemos incluido la posibilidad de ver los datos totales o cada distrito por separado. Del analisis de un par de distritos, obtenemos conclusiones curiosas:

  • Distrito London City: el censo de vehiculos disminuye año tras año, lo que adivina que seguramente es una zona donde se esta produciendo una salida de población hacia zonas perifericas con la vivienda mas barata y sin los problemas tipicos de las zonas más centricas. Ademas, vimos que era una de las zonas con la población mas envejecida. Tambien es curioso que el 62% de los hogares no tiene ningún vehículo (seguramente será también la zona mejor comunicada con trasporte público, tipo Metro o Autobus). De la misma manera, en la City predominan los coches cuyos propietarios son empresas u organismos (53%), a la vez que la mayoria de viviendas (un 89%), son apartamentos.
  • Distrito Kingston-upon-Thames: el censo de vehiculos aumenta año tras año, y ademas, el 47% de los hogares tiene 1 coche y el 23% hasta 2 coches. Se podría explicar seguramente por la distribución de las viviendas, ya que el 64% de ellas son del tipo casa o bungalow. Seguramente estemos hablando de una zona residencial. Aquí el 95 por ciento de los coches son propiedad de particulares.
  • Distrito de Chelsea: es una de las zonas con la vivienda mas cara,pero ello no implica mas vehiculos por hogar, como habiamos supuesto anteriormente.

Tablero de Analisis del Censo. Cuadro de Mando de Londres.

Para terminar, vamos a construir un tablero (nuestro cuadro de mando de Londres), donde vamos a incluir información variada de la región, referente principalmente al censo de 2001 (el censo es uno de los mayores estudios estadísticos que se realiza, como en España, que se realiza cada 10 años). Hemos construido tres pestañas diferentes en el tablero: Información Demografica, Actividad y Vivienda/Turismo.

En la pestaña Demografía, incluimos un lote de gráficos donde reflejamos: distribución de la población por Estado Civil, Nivel Estudios, Etnia, Religion, Pais Origen y Sexo. Ademas, hemos incluido los resultados electorales de la ultimas elecciones regionales, y una grafica dinámica para ver la evolución de la población desde 1801. Finalmente, se incluye otra gráfica para ver la distribución de la población por edades.

 

Cuadro de Mando - Londres (Informacion Demográfica)

En las pestaña Actividad, hemos incluido otro lote de gráficos con el objetivo de analizar la población desde un ambito sociolaboral, pudiendo ver la distribución total de profesiones, así como el detalle por sexo de estas, los porcentajes de personas activas e inactivas, y la distribución de dichos colectivos, para finalmente detallar esta información igualmente por sexo. Finalmente, en la pestaña Vivienda/Turismo hemos incluido una gráficas de evolución de los impuestos por vivienda y los ratios de reciclaje por un lado, y por otro lado el precio medio de venta de viviendas y el número de casas vendidas. Igualmente, hemos incluido un gráfico con la evolución de los ingresos por turismo, así como dos gráficos de area para detallar la distribución de los hogares y la tipologia de las viviendas.

Cuadro de Mando - Londres (Informacion de Vivienda)

 

La información es abudante  y se observan gran cantidad de cosas curiosas en los datos. Os enumero algunas:

  • London City:  el 60% de la población tiene nivel de estudios universitario, lo que se refleja en las profesiones ( el 77% son profesionales, manager o tecnicos, llegando al 81% en los hombres). Es una zona de voto conservador, con una poblacion en su mayoria mayor de 30 años y ateos (55%), y con un porcentaje alto de extranjeros (25%). Todo esto puede deberse a que en Londres tienen su sede muchos grandes bancos y entidades financieras.
  • Barking: distrito con un 60% de la poblacion sin estudios o con estudios primarios. Eso se nota en las profesiones (donde el 34% de los hombres son operarios o empleos básicos, y las mujeres el 36% son administrativas). Hay una mayor población juvenil y el voto mayoritario es laborista (socialista). La etnia dominante es la britanica (90%), al igual que la nacionalidad (87%). Seguramente se trata de un barrio obrero. Es mas, si teneis en cuenta la información de la Wikipedia, donde se habla de este municipio, podeis observar que este fue un distrito de vivienda social entre 1921-31, donde se construyeron 27.000 casas que alojaron a mas de 100 mil personas. Igualmente, después de la 2ª Guerra Mundial se construyeron allí casas para alojar a gente que perdio su vivienda durante la guerra. Eso explicaria muchos de los datos que hemos observado.
  • Wetmister: es una zona eminentemente turística, con unos ingresos por este concepto muy altos. Si leeis igualmente en la Wikipedia, podeis ver que este municipio o distrito es el que alberga la mayoria de instalaciones del gobierno de Gran Bretaña (el Palarmento, el Palacio de Buckingham o la Abadia de Wetmister). Igualmente incluye algunos de los puntos turísticos mas importantes de Londres, como son Trafalgar Square, Victoria Station,  el Soho, Hyde Park, Piccadilly Circus o la National Gallery. Esto puede explicar que también sea una de las zonas con la vivienda mas cara.
  • Tower Hamlets: es una zona donde hay una gran población de etnia asiatica (ver la Wikipedia). Esto fue debido a que hubo una gran necesidad de mano de obra para la industria textil, que se cubrió con habitantes asiaticos, sobre todo de Bangladesh. En esta zona, la religion musulmana constituye el 36% de la población y hay una población infantil y juvenil bastante alta con respecto a otras zonas de Londres.

Os dejo el enlace al flash generado para que vosotros mismos podais jugar con los datos reales (link aquí) y sacar vuestras propias conclusiones de análisis. Para poder trabajar con el flash, es necesario descargarse primero el fichero en local y luego utilizar Internet Explorer para abrirlo (primero abrimos el programa y luego desde él abrimos el fichero, con la opción Archivo–> Abrir), permitiendo la ejecución de los controles ActiveX que lleva incluidos. Según la resolución de pantalla, es posible que tengais utilizar el zoom del Explorer para poder ver los datos correctamente.

Como hemos podido ver con estos pocos ejemplos, con una información consolidada y correctamente normalizada, la cantidad de cosas que podemos analizar. Todo un mundo de posibilidades. Y quizas un nicho de mercado con mucho potencial para vender aplicaciones de Business Intelligence a las administraciones públicas. Espero que os haya resultado interesante el experimento.

Enhorabuena Roberto, me parece un gran trabajo, habrá que traducirlo al inglés porque aunque sólo sea una demo seguro que más de uno le encontraría utilidad a la información que estás mostrando.

Habrá que investigar también a ver si en el INE podemos encontrar datos suficientes para hacer algo similar sobre una ciudad española.

Sobre Microstrategy, es sorprendente lo que nos dejan hacer con la versión gratuita de su software, los gráficos están muy bien, y las posibilidades para crear buenos cuadros de mando son muy amplias.

La duda que tengo es sobre la parte analítica de esta Reporting Suite. Aunque Microstrategy cuenta que tiene capacidades como drill-up, drill-down no sé si realmente puede utilizarse como herramienta de análisis OLAP, algo así como el Analysis Studio de Cognos, por ejemplo.

Sabes hasta donde llega la Microstrategy Reporting Suite en este sentido?

En respuesta a por Carlos

Carlos, en la Reporting Suite la funcionalidad de analisis OLAP es completa y esta totalmente activa. De hecho, cuando estuve haciendo las pruebas con mi proyecto de ejemplo, empeze a utilizar Microstrategy 9 (la version de evaluación de 30 dias). Cuando, se me acabaron los 30 dias, me pase a la Reporting Suite que ya tenia licenciada y no tuve ningun recorte de funcionalidad.

Asi que creo que es una buena opción para empresas que vaya a iniciarse en el mundo BI (luego siempre se puede ampliar lo que se quiera, previo paso por caja).

En los próximos días publicare las conclusiones de la evaluación de Microstrategy 9, con un cuadro de puntos fuertes y puntos debíles. Puede ser interesante para quien este evaluando entre las diferentes herramientas (o para quien haya pensado en un producto Open y haya visto que esta versión también es gratuita y con muchisimas funcionalidades).

No he tenido tiempo de profundizar en los datos del INE, pero creo que con los datos de los censos (del 2001 o anteriores), se podría hacer algo parecido. Igual utilizando Pentaho, por ejemplo. No estaria mal como ejemplo complementario.