App para evitar el sampling en Google Analytics

Ander Fernández Jauregui.

Ander Fernández Jauregui

Data Scientist y Business Intelligence.

Problema Inicial

Google Analytics es una herramienta de analítica digital fantástica, pero tiene un problema: el sampling.

Google Analytics hace sampling cuando se analizan más de 500mil sesiones a nivel de propiedad (100 millones en el caso de Analytics 650).

Como resultado, los análisis que se realizan no se basan en la totalidad de los datos, por lo que puede inducir a errores.

Cuestiones Involucradas

  • Business Intelligence
    • Obtención de datos con API
    • Usabilidad (App Shiny)
  • Visualización de Datos
    • ggplot

Solución

He creado una aplicación Shiny con R que permite a cualquier persona conectarse a su cuenta de Google, acceder a cualquier cuenta de Google Analytics y obtener algunos datos sin muestreo.

De esta forma permito realizar gráficas básicas y descargar los datos, todo ello evitando el sampling de Google Analytics.

Desarrollo del Proyecto

Share on linkedin
Share on twitter
Share on email
Share on linkedin
Share on twitter
Share on email

¿Qué es Google Analytics?

Google Analytics es una de las herramientas más utilizadas en la analítica digital. Esta herramienta te permite recoger datos de uso de tu página web (de dónde vienen, qué visitan, tiempo en página, etc.) todo de forma gratuita.

Además, mediante otras herramientas gratuitas como Google Tag  Manager podemos hacer que Google Analytics recoja más datos que consideramos interesantes, como los clics en ciertos botones, realizar compras, enviar formularios, etc.

Esto abre un mundo de medición muy amplio a todas las empresas, que, bien explotado, permite a las empresas mejorar sus resultados siendo más eficientes. Porque, lo que no se mide no se puede mejorar.

El problema de Google Analytics: el sampling

Dicho así Google Analytics parece una herramienta fantástica. Y lo es. De hecho en LIN3S es una herramienta que usamos mucho. Sin embargo, presenta un problema: el sampling o  muestreo.

Como explican desde Google (puedes leerlo aquí), el sampling o muestreo de datos se da cuando quieres analizar más de 500mil sesiones a nivel de propiedad en el periodo que estás usando. Esto, que parece mucho, en la realidad no es tanto, y es fácil de alcanzar para páginas web con un volumen de visitas considerable.

¿Cuál es el problema? Que si alcanzas esos límites,  Google Analytics no te devuelve todos los datos, sino que hace muestreo.

Como explican desde Google Analytics, el muestreo «es la práctica de analizar un subconjunto de todos los datos para descubrir la información relevante en el conjunto de datos de mayor tamaño«. Traducción: que cuando tus datos se basan en muestreo, los datos no son reales, sino que son una extrapolación.

Estarás de acuerdo conmigo que lo mejor es analizar los datos en su totalidad, y no tomar decisiones solo con un porcentaje pequeño de los mismos, ¿verdad?. Entonces, ¿podemos hacer algo para evitar el sampling en Google Analytics?

 

Cómo evitar el sampling en Google Analytics

Como podrás ver en la parte superior de la página, he creado una aplicación Shiny para evitar el sampling en Google Analytics. ¿Cómo lo he hecho? Programando en R. Te lo explico.

Como habrás visto (sino aquí te dejo el enlace😉 soy un gran fan del lenguaje de programación estadístico R. Porque una de las cosas que permite es crear aplicaciones interactivas, como la  que tienes arriba.

Básicamente, esta aplicación hace lo siguiente:

  1. Te conectas a tu cuenta de Gmail (tranquilo, no se gurda nada de información).
  2. Eliges la cuenta, propiedad y vista de Google Analytics de la que quieres extraer tus datos.
  3. Eliges las dimensiones y métricas que quieras extraer. He dejado unas pocas dimensiones y métricas, pero si te gustaría tener acceso a más, siempre me puedes contactar;)
  4. R hace una petición al servidor de Google Analytics mediante la API y comprueba si la respuesta tiene o no muestreo. Si la respuesta recibe muestreo, particiona los datos que pides por fecha y hace varias peticiones al servidor, evitando el sampling de Google Analytics.
  5. En la pestaña de «Tabla» podrás descargar todos los datos que has obtenido de Google Analytics en formato csv. (Sí, aquí descargas todos los datos de golpe y sin límite, no como en Google Analytics;) En la pestaña de «Gráfico» podrás elegir qué variables quieres graficar y qué gráfico usar.

Espero que esta app para evitar el sampling de Google Analytics te haya resultado interesante. Cualquier cosa, puedes encontrarme en Linkedin.