Estamos realizando un pequeño caso de estudio. El objetivo es explorar y comparar diferentes opciones de visualización y cómo, visualizando un mismo set de datos se puede aportar más o menos información más o menos relevante.
Para ello me voy a basar en los datos de diferentes servicios de bicicletas públicas que proporciona https://www.citybik.es/ y que mi compañero Xavi @xgumara ha recoplidato. De hecho Xavi recoge datos de diferentes ciudades pero para un primer estudio nos centraremos en el servicio del Bicing de Barcelona.
Tenemos un proceso ETL que carga los datos y que compone un datamart con las siguientes perspectivas de análisis y métricas a analizar:
Ciertamente es un set de datos reducido y en parte esa es la gracia de este ejercicio. Extraerle el máximo de información a este set de datos reducido.
Cual va a ser el primer enfoque? Pues el claro y evidente:
Evolución de las bicicletas disponibles a lo largo del tiempo.
Pero al lo largo del tiempo ¿Que quiere decir?, la comparación de la media de bicicletas disponibles en diferentes días o la evolución durante un día? Cómo siempre: Lo quiero todo
Que nos permite ver esta vista?
De hecho, si nos fijamos en una de las peores estaciones notamos un marcado acento en esta posibilidad:
Pero hay más puntos de vista interesantes:
Hey! Bicing, cuales son vuestras métricas?
Para ello me voy a basar en los datos de diferentes servicios de bicicletas públicas que proporciona https://www.citybik.es/ y que mi compañero Xavi @xgumara ha recoplidato. De hecho Xavi recoge datos de diferentes ciudades pero para un primer estudio nos centraremos en el servicio del Bicing de Barcelona.
Tenemos un proceso ETL que carga los datos y que compone un datamart con las siguientes perspectivas de análisis y métricas a analizar:
- Estación: Ubicación de la estación
- Tiempo : El estado de las estaciones en los distintos momentos de tiempo
- Anclajes disponibles: Número de anclajes libres para que los usuarios depositen su bicicleta
- Bicicletas disponibles: Número de anclajes ocupados o bicicletas disponibles para que los usuarios las utilicen.
Ciertamente es un set de datos reducido y en parte esa es la gracia de este ejercicio. Extraerle el máximo de información a este set de datos reducido.
Cual va a ser el primer enfoque? Pues el claro y evidente:
Evolución de las bicicletas disponibles a lo largo del tiempo.
Pero al lo largo del tiempo ¿Que quiere decir?, la comparación de la media de bicicletas disponibles en diferentes días o la evolución durante un día? Cómo siempre: Lo quiero todo
Que nos permite ver esta vista?
- Que los domingos la gente coge la bicicleta progresivamente a lo largo del día y poco a poco desde las 8 de la mañana los más madrugadores hasta la 1 del mediodía su uso se intensifica.
- Pero los días de diario la gente coge la bici para ir a trabajar, o al menos eso parece. Fijaros en la "pronunciada" bajada de bicicletas disponibles desde las 7:30 hasta las 9:00 que empieza a recuperarse.... y por la tarde para volver escalonadamente.
Si hacemos zoom en la gráfica que nos interesa:
De hecho, si nos fijamos en una de las peores estaciones notamos un marcado acento en esta posibilidad:
Pero hay más puntos de vista interesantes:
- Comparativas de uso entre días
- Comparativas de uso de los diferentes días de la semana
- Comparativas de uso entre 2 días análogos (Domingo vs Domingo por ejemplo)
- Donde se usa más el bicing, en el centro o en la periferia.
- Se usa la bici para ir al centro y/o para volver a casa?
- Que zonas tienen más actividad? Laborales, ocio o comerciales?
- Si se usa para ir a trabajar.... Que tipos de trabajo tienen esos usuarios? Van a zonas de oficinas o zonas de tiendas o zonas "industriales"?
Hey! Bicing, cuales son vuestras métricas?