Hay pequeñas mentiras, grandes mentiras y estadísticas reza el dicho popular.

Desde que empecé a utilizar el Google Analitycs he visto informes o resultados imposibles por lo que pensaba «kico eres tan inútil que no sabes ni usar Google»

Pero ayer fuí a la Conversion Thursday y me enteré de varias cosillas que desconocía. Parece ser que Google no guarda un log real del tráfico de la web sino que debe estar haciendo un refrito de datos antes de almacenarlos para de esta forma agilizar la generación de informes.

Este tipo de refrito de datos hace que pueda responder en tiempo real a consultas que otros programas de analítica les cuesta un buen rato resolver y que en algunos casos les lleva a problemas de disponibilidad, etc. Pero ¿a cambio de que obtiene mayor velocidad? pues a cambio de exactitud.

Imagina que tienes piezas redondas, cuadradas y triangulares de color azul, rojo y verde. Estas piezas van pasando delante tuyo una a una y usas GA para analizarlo.
Cualquiera haría una lista así y luego sacaría conclusiones (sumas promedios etc).
1.- Cuadrado – verde
2.- Cuadrado – Azul
3.- Triangulo – Rojo
4.- Cuadrado – Rojo
5.- Circulo – Azul
6.- Cuadrado – Verde

GA hace un refrito por lo que en vez de guardar lo anterior y obtiene:
Cuadrados: 3
Circulos: 1
Triangulos: 2
Rojos: 2
Azul: 2
Verde: 2
Cuadrado y verde: 1
Cuadrado y Azul: 1
Triangulo y Rojo: 1
Cuadrado y Rojo: 1
Circulo y Azul: 1
Cuadrado y Verde: 1

Aunque parezca que GA esta guardando más datos en realidad cuando pasen 1000 figuras la cantidad de información con la que trabaja GA no habrá aumentado, mientras que el que ha guardado el log completo tendrá 1000 datos y para obtener ¿cuantas figuras rojas hay? tardará más que GA.

A cualquiera le puede parecer una ventaja lo que hace GA pero en realidad esta truncando la información y cuando yo quiera saber ¿cuantas veces ha aparecido un cuadrado verde después de un triangulo verde? GA será incapaz de dar la respuesta sin «inventarseextrapolar ciertos datos» mientras que el que ha guardado todo el log si que podrá hacerlo con exactitud.

En cualquier caso me gusta más la analítica a priori, define que valor quieres obtener y desde el servidor y mediante programación se puede obtener el valor real sin distorsiones. ¿ Habéis calculado que muchos usuarios navegan ya sin el JavaScript activado y que sin JavaScript Google no cuenta visitas?

PD no puedo dejar de agradecer la muy agradable charla y compañía de Ferriol, Edu, Jordi y Andrés Flores con los que tuve el placer de cenar.