¿Cómo lograr el éxito rápido de un negocio de bicicletas compartidas
Caso practico que forma parte del curso de Google correspondiente al análisis de datos.
En este caso practico soy un analista de datos júnior que trabaja en el equipo de analistas de marketing de Cyclistic, una empresa de bicicletas compartidas de Chicago. Nuestra directora de marketing cree que el éxito futuro de la empresa depende de maximizar la cantidad de membresías anuales. Por lo tanto, mi equipo quiere entender qué diferencias existen en el uso de las bicicletas Cyclistic entre los ciclistas ocasionales y los miembros anuales. A través de estos conocimientos, diseñaremos una nueva estrategia de marketing para convertir a los ciclistas ocasionales en miembros anuales. Sin embargo, antes de eso, los ejecutivos de Cyclistic deben aprobar mis recomendaciones; por eso, debo respaldar mi propuesta con una visión convincente de los datos y visualizaciones profesionales de los mismos.
1.- Preguntar
¿Cuál es el problema que intentas resolver?:
Identificar las diferencias entre los ciclistas ocasionales y los miembros anuales.
¿Cómo tus conocimientos pueden impulsar las decisiones empresariales?:
Utilizar técnicas avanzadas de análisis de datos para extraer información significativa de conjuntos de datos complejos.
2.-Preparar
Los datos se ubican en la web oficial de la empresa y constan de 12 tablas que representan los datos obtenidos de los últimos 12 meses respectivamente, Mayo del 2023 hasta Abril del 2024, cada una de las tablas contiene mas de 100,000 filas, las cuales representa un ID de viaje respectivamente.
Decidimos extraer una muestra de 385 registros a cada una de las tablas, esto utilizando el principio de que número 385 se obtiene al considerar, para un nivel confianza de 95%, la desviación media de 1.96, y un margen de error de 5%.
Como resultado obtuvimos una tabla con 4613 registros que como mencionamos anteriormente abarcan desde Mayo del 2023 hasta Abril del 2024.
Esta registro sera la base para el análisis que posteriormente haremos para responder la pregunta anteriormente planteada la cual recordamos que es: ¿En qué se diferencian los socios anuales y los ciclistas ocasionales con respecto al uso de las bicicletas de Cyclistic?.
Describiendo la tabla, contamos con 13 columnas cuyo nombres son: ride_id, rideable_type (tipo de bicileta), started_at(fecha y hora de inicio), ended_at (Fecha y hora de cierre), start_station_name (Nombre de la estacion de inicio), start_station_id, end_station_name(Nombre de la estacion de cierre), end_station_id, start_lat(latitud de inicio), start_lng(Longitud de inicio), end_lat(Latitud de cierre), end_lng (Longitud de cierre) y member_casual(SI el cliente es miembro o casual).
Ejemplo de datos sin procesar
3.- Procesar.
Para hacer una limpieza de los datos utilizaremos Excel, una herramienta de hoja de calculo que nos permite manipular la tabla de una forma simple.
Pasos del proceso
1.- Primero eliminamos las columnas de start_station_name, start_station_id, end_station_name, y end_station_id ya que no consideramos que sean de importancia a la hora del análisis correspondiente.
2.- Creamos una columna llamada ride_lenght(min), donde tendremos la duración en minutos de cada uno de los viajes realizados esto lo obtuvimos calculando la extensión de cada viaje restando la columna “started_at” de la columna “ended_at”.
3.- Creamos una tabla donde tendremos el día de la semana en el que se realizo el viaje, esto con la función “WEEKDAY", donde 1=lunes, 2=martes, 3=miércoles y así respectivamente para los 7 días de la semana.
4.-Utilizamos un proceso similar para obtener el mes en el que se realizo el viaje.
5.-Agregamos los filtros a cada una de las columnas de la tabla y verificamos que no hubiera valores nulos o atípicos e igualmente con la función de formato condicional, corroboramos que no hubiera datos duplicados.
A continuación publico un enlace para visualizar la tabla resultante.
Datos generales
4.- Analizar
A continuación haremos el análisis de los de los datos utilizando SQL.
SQL es el lenguaje universal de las bases de datos. Si quieres meter, sacar, actualizar o borrar datos en una base de datos, SQL es la herramienta que usas. Es como hablar con la base de datos para decirle qué hacer con la información que tiene guardada. Es algo así como el idioma que todos los programas usan para comunicarse con la base de datos y hacer que haga lo que necesitas.
Específicamente para este proyecto utilizaremos SQLite el cual es un sistema de gestión de bases de datos relacional y su ventaja es que no requiere de un servidor separado para funcionar, ya que la base de datos se almacena en un solo archivo. Esto lo hace perfecto para aplicaciones más pequeñas o para situaciones donde no necesitas una base de datos enorme.
Utilizaremos igualmente DB browser (SQLite) la es una es una herramienta de código abierto que permite visualizar, editar y administrar bases de datos SQLite de manera fácil y conveniente. Es como una especie de caja de herramientas para interactuar con bases de datos SQLite de forma gráfica, sin necesidad de escribir comandos SQL manualmente.
Interfaz de DB browser.
Primero creamos el proyecto en DB browser, en este caso lo llamaremos "proyecto bicicletas".
Luego importaremos la base de datos que se encuentra en Excel al DB browser, esto se logra convirtiendo el libro de Excel con extensión ".xlsx" a ".csv", esto se hace ya que en DB browser solo se puede importa archivos delimitados por coma.
Una vez importada la base de datos en el Browser verificamos que estén todas la columnas originales de la base de datos.
Como podemos observan se encuentran las 12 columnas de datos.
Procedemos a verificar si se cuentan con los 4613 registros que obtuvimos en la base de datos final en Excel, utilizan la función COUNT() DE SQL.
Como observamos si contamos con los 4613 registros de la tabla.
Conoceremos el promedio del tiempo de viaje por tipo de cliente, así como el recorrido mas largo igualmente por tipo de cliente, utilizando las funciones como AVG() y MAX(), así como la función AS, para darle un nombre provisional a la columna y la función GROUP BY, para agrupar los datos según el tipo de cliente.
En este análisis podemos observas que los clientes casuales tienen en promedio un mayor tiempo de uso de las bicicletas, igualmente observamos que el recorrido mas largo de los clientes casuales es de 279, mientras que el recorrido mas largo de los clientes miembros es de 1472, mas 5 veces mas grande que el de los clientes casuales.
Veremos el tiempo promedio de viaje según el tipo de cliente por cada día de la semana.
Lo que podemos observar es igualmente como cada día de la semana el promedio de tiempo es mayor para los clientes casuales que para lo clientes miembros.
Veremos ahora que dice el numero de viajes realizados.
Como vemos, los clientes miembros utilizaron mas 6 veces mas el servicio de bicicletas en el año.
Analizaremos el numero de viajes por día de la semana según el tipo de clientes.
Observamos que a lo largo del año y tomando como referencia los días de la semana, absolutamente en cada día se presentaron mas viajes hechos por clientes miembro que hechos por clientes casuales.
5.- Compartir
Primero aclarando que es un dashboard tenemos que es una herramienta visual que muestra datos importantes de forma clara y concisa en una sola pantalla. Puede contener gráficos, tablas y otros elementos visuales para resumir información compleja y facilitar la toma de decisiones informadas. Puede ser estático o interactivo, y se usa en diversos campos para monitorear y analizar datos clave.
A continuación mostraremos los elementos visuales con los cuales podremos representar de una forma efectiva los hallazgo que obtuvimos, dichos gráficos serán hechos en la herramienta de visualización, Power Bi, donde generaremos el siguiente dashboard:
Este dashboard nos demuestra distintas métricas que nos servirán para mostrar los resultados que obtuvimos a la pregunta que originalmente queríamos contestar.
Mostraremos las distintas partes del dashboard:
tenemos de forma visual el promedio de duración de viaje en minutos por día de la semana y el tipo de usuario, donde se deja claro que los clientes casuales utilizan en promedio mas tiempo el servicio de bicicletas. analizando mas vemos como la diferencia mas grande se la lleva el día lunes y el día sábado, y es el día miércoles donde vemos que el promedio esta prácticamente a la par.
Ahora tenemos una visualización donde mostramos el numero de viajes realizados por día de semana y tipo de usuario, donde logramos observar como los clientes miembro hacen mas viajes a lo largo de semana que lo clientes casuales, siendo el día miércoles el día con mas viajes a lo largo del año por parte de dichos clientes miembros.
En la siguiente visualización tenemos como métrica el numero de viajes hechos por mes y tipo cliente, vemos que a lo largo de los 12 meses, los clientes miembro realizan muchos mas viajes en bicicletas que los clientes casuales.
igualmente podemos observar en conjunto los clientes utilizan mas la bicicleta eléctrica con 62.91% de los registros, con un 36.57% la bicicleta clásica es la segunda mas utilizada y con un 0.52% la bicicleta docked es la menos utilizada de las tres.
Utilizando una segmentación de datos podemos observar particularmente ciertos datos específicos según el tipo de cliente. observamos que en cuanto a clientes casuales:
Notamos como de los registros totales los clientes casuales abarcan el 13.18% del total, con una duración de viaje promedio de 21.42 minutos y el viaje mas largo fue de 279 minutos.
Podemos igualmente observar que por parte de los clientes miembros, tiene un 86.82% del porcentaje total de viajes realizados y tiene un duración promedio de viaje de 12.75 minutos, así como que el viaje mas largo registrado es de 1472 minutos.
Compartir
Aprovecharemos este apartado para compartir nuestras conclusiones sobre el caso practico anteriormente realizado.
Como observamos anteriormente, se utilizaron distintas métricas, métricas que posteriormente se analizaron, todo esto con el fin de contestar la pregunta principal con respecto a este proyecto la cual recuerdo que era, ¿En qué se diferencian los socios anuales y los ciclistas ocasionales con respecto al uso de las bicicletas de Cyclistic?. Basándonos en esta pregunta y en los análisis hechos utilizando herramientas como Excel, SQlite y Power Bi, llegamos a las siguientes conclusiones:
1.- En promedio, los clientes casuales hacen viajes mas largo que los clientes miembros, con un promedio de 21.42 min (clientes casuales), contra un promedio de 12.75 min (clientes miembros).
2.-Los clientes miembros hacen mas viajes que los clientes casuales, siendo un 86.82 % de los registros del análisis, contra un 13.18% de los clientes casuales.
3.- El día de la semana en el que los clientes casuales utilizan mas tiempo el servicio de bicicletas es el día sábado mientras que el día en los clientes miembros utilizan mas tiempo el servicio de bicicletas es el día domingo, concluyendo igualmente que el fin de semana es cuando se utiliza mas tiempo el servicio de bicicletas en promedio.
4.- El día de la semana en el que los clientes casuales mas veces el servicio de bicicletas es el día sábado mientras que el día en los clientes miembros utilizan mas veces el servicio de bicicletas es el día miércoles.
5.-El mes en el que mas viajes se realizan por parte de los clientes miembros es el mes de diciembre, mientras que el mes en el mas viajes se realizaron por parte de los clientes casuales es julio.
7.- Igualmente se puede concluir por el análisis que el día de la semana donde los clientes miembros utilizan en promedio por menos tiempo el servicio de bicicletas es el día jueves y a su vez el día en que los miembros casuales utilizaron en promedio menos el tiempo el servicio fue el miércoles, concluyendo que es a mitad de semana cuando menos se utiliza el servicio.
8.-En el análisis que el mes donde los clientes miembros utilizan menos veces el servicio de bicicletas es el mes de Julio y a su vez el mes en que los miembros casuales utilizaron menos veces el servicio fue en diciembre con 0 registros ese mes.
9.- También en el aspecto de los tipo de bicicletas obtuvimos que los clientes miembros utilizan mas la bicicleta eléctrica, con un 65.89% de los registros, mientras que los clientes casuales utilizan mas la bicicleta docked con 52.8% de los registros.
A continuación presento la siguiente tabla con la información anterior resumida:
Comentarios