Cómo combinar datos para la optimización del transporte público
Autor: Alberto Guisande (@aguisande), Director de servicios
Publicación original: Selección para los Premios de excelencia de 2016
Describe el problema que necesitabas resolver:
Nuestro cliente es una empresa de transporte público, a cargo de autobuses que circulan por la ciudad de Panamá. Transportan más de 500.000 pasajeros por día (1/6 de la población total del país). Cerca de 400 rutas, con 1400 autobuses que circulan por la ciudad todos los días y trabajan las 24 horas del día, los 7 días de la semana, informando su posición cada pocos segundos. La empresa apoya su funcionamiento mediante diversas herramientas, pero al momento de reunir los datos, se observó que no había un "punto de contacto" en los datos. Tienen que comparar peras con manzanas. ¿Realmente? ¿Por qué existe ese dicho? ¡Porque no se puede! Por eso comenzamos a intentar hacer lo imposible.
Además, las preguntas comerciales son bastante simples (una vez que se obtienen los datos), como: ¿en qué ruta estaba cada autobús cuándo se produjo cada transacción?, ¿qué demanda hay para cada ruta?, ¿y para cada parada?
Describe la solución funcional
Al trabajar con Alteryx, pudimos analizar los datos que provenían de tres fuentes diferentes, donde la única información común eran algunos datos de LATITUD y LONGITUD (tomados con diferentes equipos, así que la precisión era cuestionable) en puntos de tiempo aleatorios. Los datos se recibieron en varios archivos:
- Rutas: Contiene la identificación y el nombre de cada ruta. Paradas: Contiene todas las paradas de autobús, su latitud y longitud, y el nombre de la parada
- Detalle del patrón: Contiene todas las rutas, sus paradas y la secuencia de esas paradas en una ruta
- Algunos comentarios: Muchas paradas se usan en diferentes rutas y hay algunas paradas por las que pasa el autobús aunque no sea parte de la ruta específica donde se encuentra el autobús
Hasta ahora, esa es la parte fácil. Logramos muy fácilmente reunir toda esta información. Ahora esta es la parte complicada: hay dos conjuntos de datos operativos principales:
1) AVL (todas las posiciones de todos los autobuses, cada n segundos, donde n es un número arbitrario entre 0 y el equipo de hardware que se desee usar). Por lo cierto, una gran cantidad de datos todos los días.
2) Transacciones: transacciones registradas en el tiempo, en un autobús. Como puedes inferir, no hay datos en común que nos permitan hacer coincidir registros además de un rango arbitrario de latitud y longitud en rangos aleatorios de tiempo. Debido a cómo se informa todo, el autobús puede pasar frente a una parada que sea parte de otra ruta o detenerse lejos de la parada designada.
Describe los beneficios que has obtenido:
Con esta solución, la empresa puede comenzar a analizar la actividad por ruta, demanda por autobús, rutas, paradas, etc. Sin Alteryx, esta información del cliente continuaría pareciéndose a peras y manzanas. Nosotros pudimos darle un sentido y permitir usarla para obtener revelaciones.
Nota (e intensificadora del ego): otros 5 proveedores aceptaron el desafío. Nadie más pudo atisbar siquiera una solución (por supuesto, "sin Alteryx, no hay victoria").