Uno de los retos de un analista digital es pasar por diferentes procesos de limpieza, exploración y análisis de contenido para sacar buenas conclusiones y detectar nuevos escenarios e insights. Además, tiene que comprobar si las fuentes de datos son de dudosa calidad o no.

Y si hablamos de un analista digital, es muy probable que toda esa exploración pase por la herramienta más utilizada en el mundo de la analítica: Google Analytics. Pero seguro que también estará conectado a otras fuentes como Google Sheet, un CRM o base de datos, u otros ficheros de texto, en formato csv, y más.

Hoy en día, un analista digital no solo tendrá que tener conocimientos solo de usabilidad de la web, también de negocios, estadística, programación, base de datos, visualización de datos, además estar actualizado con las nuevas tecnologías.

Entre las herramientas que normalmente podemos incluir en nuestro “maletín” de explorador de los datos, sería la programación. Y algunos de nuestros aliados deben ser el lenguaje R o Python, siendo “sencillos” en su aprendizaje y muy útiles a la hora de ejecutar pequeños script, ya que tienen muchas librerías open-source.

Veamos qué ofrecen cada uno de ellos y cómo pueden ayudarnos al análisis y visualización de datos.

¿Por qué R?

R es un lenguaje generalista, con diversas librerías de análisis estadístico bastante potentes que pueden suplir el campo de aplicación R, cosa que no sucede con otros lenguajes como Python, por ejemplo.

R está pensado para explotar su potencial que es la “estadística”. Este fantástico lenguaje nos permite una primera toma de contacto con los datos debido a su flexibilidad por la exploración, limpieza y análisis a diferentes fuentes de datos, así como aplicar modelos y algoritmos predictivos puede ser de gran ayuda en el mundo de la análisis de datos.

Intro de R Studio

R Studio es un entorno gráfico para el lenguaje de programación R que facilita la creación y ejecución de scripts. También simplifica la instalación de los paquetes necesarios para la ejecución de aquellos scripts que los requieran.

R Studio utiliza una partición de la pantalla en diferentes secciones, de forma que todos los elementos necesarios se encuentran disponibles a un solo clic, incluidos el código fuente, los datos cargados y generados por dicho código, los resultados obtenidos, los gráficos generados, etc.

También facilita la integración con otros sistemas para la creación de informes en diferentes formatos (principalmente HTML o PDF).

Librería de Google Analytics en R

Entre las diferentes librerías en R para poder conectar y explorar los datos desde Google Analytics, hay dos en particular de lo que hablaré hoy.

Ambos están en el repositorio oficial del CRAN (googleAuthR y googleAnalyticsR). Su función es que se necesitan en una el token Google Analytics, mientras el otro habilitar Google Cloud y su API, con lo cual necesitaríamos tener activados:

  1. Google Cloud, habilitar el proyecto.
  2. Permiso de edición de Google Analytics.

Aspectos a considerar de Google Analytics

Durante la fase de exploración, consultaremos dimensiones y métricas de Google Analytics. SI no estás familiarizado con estas dos partes más importantes de analítica web, mi consejo es que consultes la guía oficial para conocer las más representativas.

Si, por el contrario, ya conoces la interfaz de Analytics y quieres ir más allá, puedes consultar la tool externa de exploración de estos datos a través de la otra API de Google Analytics, Query Explorer, y la extensión o complemento para Google Sheet que permite tener datos directamente en una hoja de cálculo.

Fase de Instalación y Autorización de GA

En esta fase cargaremos los paquetes necesarios, previamente necesitaremos una cuenta de Google Cloud (que nos vendrá bien también si en un futuro queremos utilizar Big Query).

Es importante tener una cuenta de Google Analytics que no sea ni demo, ni solo de lectura, ya que podría tener problemas con los permisos.

console
# install.packages("googleAuthR")
# install.packages("googleAnalyticsR")
library(googleAnalyticsR)
library(RGoogleAnalytics)
library(ggplot2) # para representar gráficamente los datos
library(forecast) # para las predicciones seriales
library("tidyverse")
console
## Autorizamos a través del token con nuestro account Google
ga_auth()

Comenzamos con la primera query de Google Analytics in R

Veamos el listado de los account de GA y la guardamos en una nueva variable:

console

account_list %
ggplot(aes(x=date, y=sessions, size = sessions, color = sessions)) +
  geom_point() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Siguiendo la misma lógica, podemos añadir otras métricas de tráfico importantes (duración media, usuarios, páginas vistas, transacciones, eventos, etc), así que para tener una idea de la evolución o tendencia por periodo, podemos representar el gráfico de líneas:

console

gadata %>%
ggplot(aes(x=date,y=sessions,group=1)) +
  geom_line() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))
  --md-var-hashtag- some styles to rotate x-axis labels

Ahora sí que se nota el pico máximo entre octubre y diciembre, nos hace pensar que este tráfico puede deberse al periodo entre el pre-Black Friday y durante Navidad (si es un retail tiene lógica). Y si queremos representar la tendencia, añadimos la línea de tendencia para que vayamos viendo la evolución del tráfico a lo largo del periodo observado:

console

gadata %>%
ggplot(aes(x = date, y = sessions) ) +
  geom_point() +
  geom_smooth() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Con los primeros datos podemos observar que ha habido un periodo estable, con acciones puntuales (serán promociones) y el pico hasta navidad.

Ahora nos interesa conocer algo más de nuestros usuarios, segmentando así el tráfico según periodos más cortos.

Pasamos a detectar si existen diferencia durante los días de la semana y hora del día. Creamos una nuevo dataset con las métricas sesiones y duración media de sesión, por día de la semana.

console--md-var-new-line---md-var-lower-than-br --md-var-slash---md-var-greater-than---md-var-backslash---md-var-dash---md-var-dash-md--md-var-dash-var--md-var-dash-hashtag--md-var-dash- Añadimos la dimensión día de la semana y fecha --md-var-dash- solo 1er semestre--md-var-lower-than-br --md-var-slash---md-var-greater-than---md-var-new-line-gadata--md-var-dash---md-var-dash-md--md-var-dash-var--md-var-dash-lodash--md-var-dash-2 

Cuéntanos qué te parece.

Enviar.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.