Proyecto Ganador Universityhack 2020 Blablacar

Ander Fernández Jauregui.

Ander Fernández Jauregui

Data Scientist y Business Intelligence.

Problema Inicial

En el reto Datavisualization del Universityhack 2020 teníamos todos los trayectos hechos por Blablacar durante dos años para toda la península  ibérica. Más de 11 millones de datos que teníamos que transformar en una visualización.

Cuestiones Involucradas

  • Business Intelligence
    • Data Visualization
    • Business Development

Solución

Crear un planificador de trayectos en Blablacar, incluyendo rutas alternativas y todas las herramientas necesarias para poder llevar este nuevo servicio al mercado de la mejor manera posible.

Desarrollo del Proyecto

Share on linkedin
Share on twitter
Share on email
Share on linkedin
Share on twitter
Share on email

Blablacar: visualizando una solución end to end

Cuando mi compañero Alex Seoane y yo nos encontramos frente a este reto del Universityhack 2020, teníamos claro que una visualización de datos solo es de valor si es útil para la empresa. En el caso de Blablacar  incrementar su valor se traduce, sobre todo, en viajes: cuantos más viajes se hacen, mejor para Blablacar. Pero, ¿cómo conseguimos incrementar los viajes de Blablacar?

Tras hacer un análisis descriptivo, la solución parecía clara: en Blablacar hay muchos trayectos, pero no todos  tienen la misma oferta ni se cubren de la misma manera. Por ejemplo, el viaje Bilbao a Cádiz quizás no es muy probable, pero el viaje Bilbao-Madrid y Madrid-Cádiz sí lo son.

Así pues, nuestra solución fue crear un planificador de viajes de Blablacar que te diga la probabilidad a futuro de un trayecto para una fecha dada y, además, te busque una ruta alternativa corta y probable por si la ruta directa es raro que ocurra.

Pero no solo eso, sino que además creamos los dashboard necesarios para poder llevar este nuevo proyecto al mercado. Y es que nuestro proyecto giraba entorno a tres ejes:

  • Llegar más lejos: permitir que los usuarios viajen a más sitios.
  • Llegar a más gente: crear el dashboard necesario para conocer el uso de Blablacar en diferentes provincias y así poder .
  • Cuidando el planeta: conocer el ahorro ambiental de Blablacar en cada provincia.

Llegar más lejos

Uno de los problemas de los usuarios es que no pueden llegar a todos los sitios. Por tanto, una forma de facilitar el viaje es permitir rutas alternativas que suplan las rutas directas. En los aviones existen las escalas, ¿por qué no en Blablacar?

Dicho y hecho. Extrajimos los datos geográficos de las ciudades (venían como string), así como las distancias y las geometrías de todos los trayectos con demanda. Además, calculamos la probabilidad de que se diese ese viaje dado un día de la semana, ya que vimos que no era lo mismo viajar un viernes que un lunes.

Los propios datos nos guiaron a la solución: una aplicación en la que elijas el origen, destino y el día en el que quieras viajar. Nosotros extraemos el día de la semana y con la probabilidad del resto de rutas para ese día, te damos una alternativa.

En este punto, nos surgió el siguiente problema. ¿Cómo elegimos la mejor ruta alternativa?

Por suerte, el mundo de los grafos está muy desarrollado, por lo que nos valimos del algoritmo de Dijkstra para encontrar la ruta alternativa ponderada más corta. Esa ponderación se haría mediante una combinación de probabilidad de la ruta y la distancia de la misma. Al fin y al cabo, es mejor una ruta algo menos probable que sea mucho más corta, que otra más probable pero que sea inviable para el usuario.

Así, valiéndonos de Shiny, leaflet, grafos y mucha mucha paciencia es como llegamos a resolver el primer problema: permitir a los usuarios de Blablacar llegar más lejos

Llegar a más gente

Para poder llevar este nuevo servicio a buen puerto, lo vimos claro: hay que conocer el mercado. Blablacar no se usa igual en todos lados, ni tiene la misma penetración, ni ratio de confirmación de asientos.

Otra vez más, el cuerpo nos pedía un mapa, en este caso por provincias, para conocer dichas métricas. Pero se nos quedaba corto, estático y los desplegables no nos convencían.

Hasta que Alex se dió cuenta de que la solución a la interactividad la teníamos delante: el propio mapa. Y así lo hicimos. Con muchas horas y un poco de Javascript conseguimos mostrar un menú con 3 minigráficos interactivos que permiten a los usuarios tener un mayor conocimiendo del área que quieren analizar.

Así, es como creamos nuestra segunda solución. Un dashboard que permita a Blablacar llegar a más gente.

 

Cuidando el planeta

La idea de la visualización del impacto ambiental surgió durante la extracción de datos de rutas. Teníamos el número de asientos confirmados por cada viaje y la distancia de la misma. No es descabellado pensar que, si no fueses en Blablacar, irías en tu coche u otro transporte. Por lo que cada kilómetro hecho por cada persona que viaja en Blablacar supone un ahorro en el impacto ambiental.

Buscando, encontramos la contaminación de promedio de los coches matriculados en Europa por kilómetro recorrido. Seguramente, la mayoría de coches de Blablacar no sean tan nuevos, por lo que contaminarán más. Ya teníamos una estimación a mínimos que nos servía.

Y así, calculamos el ahorro del impacto ambiental que ha permitido Blablacar en cada una de las provincias de España. Además, como ya sabíamos como hacer mapas interactivos… aprovechamos para enriquecer este dashboard con otra serie de minigráficos con KPIs clave.

Asi es como llegamos a la tercera página de nuestro proyecto, porque es bueno llegar más lejos y llegar a más gente, pero que sea cuidando el planeta.

 

Universityhack 2020: toda una experiencia

Sin duda alguna, el Universityhack 2020 ha sido una de las mejores experiencias académicas que he vivido. Tener millones de datos y tener que enfrentarte a crear de ahí algo viable, útil y atractivo ha sido muy muy complicado, pero también muy gratificante.

Además, este proyecto me ha permitido aprender bastantes cosas (como el algoritmo de Dijkstra o la reactividad de mapas en shiny) y profundizar en muchas otras, como la visualización de datos, los datos geoespaciales o la creación de códigos de extracción de datos robustos.

Así que, si tienes la oportunidad, te recomiendo participar en la que dicen es el mayor reto de analítica de datos de España.