Ejemplo de BI con Datos Públicos.

Al hilo de una interesante serie de artículos publicados en todobi.com (Business Intelligence con datos públicos, Obama usa los Dashboards y Datos Publicos para hacer demos), donde se habla de los datos públicos que ponen a disposición de todos diferentes organismos y como se utilizan estos por diferentes portales. Por ejemplo, Google utiliza los datos de la oficina de estadistica del equivalente al ministerio de trabajo de EEUU para mostrar estadísticas de desempleo en su Web.  Otro ejemplo lo tenemos en la web del Banco Mundial, del cual hemos recogido un interesante ejemplo en la imagen siguiente (comparativa entre la esperanza de vida y la renta per capita por paises, en series anuales).

Web del Banco Mundial

Estos datos pueden ser interesantes para realizar demos de sistemas de business intelligence, para integrarlos con información gráfica o geográfica y ser un buen punto de partida para construir un prototipo y vender un producto (muy especialmente en el ámbito de las administraciones públicas). Incluso, estos datos podrían utilizarse para ver los resultados de determinadas políticas públicas o como elemento de toma de decisiones del lugar geográfico o ámbito social donde se deben de aplicar estas políticas. Igualmente, a nivel privado se podrían utilizar para complementar estudios de mercado (en decisiones como la ubicación de un supermercado, un centro de ocio o similares), para campañas de publicidad especificas o buzoneo, etc.

A nivel de la Comunidad Europea, el organismo Eurostat proporciona abudante información estadística en su portal. Incluso nos permite la descarga de los ficheros accediendo a sus directorios de datos (en lo que llaman Bulk Download) con actualizaciones continuas e información del diccionario de datos de cada estadística. Tambien dispone de un amplio abanico de informes estadísticos online que se pueden consultar en forma de tablas, gráficos o mapas y desde los cuales también se pueden descargar los datos en formato Xls, Html, Xml o Tsv.

 

Graficos Online en la web de Eurostat

A nivel de España, disponemos de un amplio repertorio de resultados de encuestas y estudios en la web del Instituto Nacional de Estadistica y en el Centro de Investigaciones Sociológicas (CIS). A nivel económico, el Banco de España también ofrece abundante información en su web, asi como la Oficina del Catastro para las viviendas, el Ministerio de Fomento sobre la construcción y el sector del transporte o el Ministerio de Trabajo y Asuntos Sociales. En las comunidades autonomas también hay accesibles datos (pues la mayoría de comunidades tienen su propio instituto), como es el caso el Portal Estadistico de la Generalitat Valenciana, el Instituto de Estadística de Cataluña, el Instituto de Estadística de la Junta de Andalucía, el Instituto de Estadística de la Comunidad de Madrid o del mismo Ayuntamiento de Madrid, Barcelona, Sevilla o Valencia. No en todos los sitios la información esta disponible para la descarga o el metodo de descarga es incomodo para poder procesar los datos de una forma automática (información repartida en hojas excel con diferentes pestañas o similares). Se echa de menos la utilización de un estandar para acceder a los datos disponibles de forma que se facilite su procesamiento.

Web del Ine - Consulta de Datos del Padron de 2009 de Alicante

Como hemos indicado anteriormente, en la Web del Instituto Nacional de Estadística, que vemos en la imagen, hay una extensa información en el ambito nacional (Censo de Población, que se realiza cada 10 años y recoge una amplia recopilación de información de personas, estructura de hogares, edificios, etc.; Padrones municipales, que se actualizan todos los años por parte de los ayuntamientos; Encuesta de Población Activa, Indices de Precios al Consumo, Información de empresas y de administraciones públicas, Encuestas de ocupación hotelera, Estadísticas de Turismo y Establecimientos, etc, etc  ). Dispone de herramientas online para ir seleccionando el tipo de información a visualizar, permitiendo finalmente la descarga de información en formato csv, excel o pc-axis.  Este ultimo es un formato propio del Ine que se puede visualizar a través de una aplicación gratuita que también nos podemos descargar en su web.

Nuestro estudio lo vamos a realizar con datos de la ciudad de Londres (donde hay gran cantidad de datos disponibles en la web https://data.london.gov.uk/datasets, todos ellos en formato descargable, bien en csv, excel o xml). El procesamiento de los ficheros lo realizaremos con Talend y definiremos un miniproyecto en Microstrategy para explotar los datos.

La información que vamos a descargar de la Web para definir nuestro modelo de analisis público será la siguiente:

  • Vehiculos abandonados: información anual de vehiculos abandonados por area en el periodo 2000-2008  (link aquí).
  • Mortalidad relacionada con el alcohol (link aquí) y tratamientos de drogas (link aquí).
  • Nacimientos y ratios de fertilidad (link aquí).
  • Ratios de mortalidad (link aquí) y de suicidios (link aquí).
  • Emisiones de dioxido de carbono (link aquí).
  • Información del censo de población de 2001: población, estructura de edad, vivienda, estado civil, pais de nacimiento, grupos etnicos, religión, salud, actividad economica, ocupacion qualificaciones, vehiculos, composición de hogares, enfermos crónicos, etc.
  • Información de impuestos (link aquí).
  • Información de viviendas vacias (link aquí).
  • Información histórica del censo (link aquí).
  • Resultados de elecciones:
  • Admisiones hospitalarias (link aquí).
  • Viviendas: construccion (link aquí), venta (link aquí).
  • Reciclado de basuras (link aquí).
  • Ratios de aborto legal (link aquí) y de embarazos de menores (link aquí).
  • Vehiculos por número (link aquí) y por tipo (link aquí).
  • Espectativa de vida al nacimiento (link aquí).
  • Uso de bibliotecas y museos (link aquí).
  • Estimación de gasto de turistas (link aquí) y viajes previstos (link aquí).

Como veis, tenemos un amplio conjunto de información disponible para analizar temas muy interesantes, en todos los ambitos de lo publico. Desde analizar, a partir de los datos del censo, los grupos etnicos y religiosos por zonas, y como eso influye en otros aspectos (consumo de drogas, natalidad, etc). Nivel economico de las zonas según el pago de impuestos, los vehiculos o el uso de bibliotecas y museos. Como podeis ver, todo un abanico de posibilidades de análisis de la información.

Proyecto OpenStreet - Mapa de Londres

Como consideración aparte, hemos visto que la ciudad de Londres participa en OpenStreet, que es un proyecto global de colaboración, que ofrece mapas y datos geograficos en el ambito de licencia Open, con el objeto de su uso libre y su reutilización. Tenemos ejemplos de como utilizar los mapas via Apis o a través de código Java.

En la siguiente entrada del Blog mostraremos el modelo de datos para la carga de la información estadística y el diseño de procesos en Talend para cargar el DW. Posteriormente, mostraremos como vemos la información utilizando informes y documentos de Microstrategy.