lunes, 22 de junio de 2009

Yo Robot - No Gracias

Llevaba tiempo con ganas de escribir sobre un tema en concreto: los robots en la analítica web.
Siempre me preguntan por las diferencias entre las mediciones de SiteCensus/Market Intelligence y otros proveedores de analítica web.
Si bien las principales diferencias son debidas a lo que podemos llamar el cocinado de los datos, existe un diferencia en el tráfico de robots.

Cabe recordar que Nielsen Online tiene la patente en varios países de la medición por marcadores, por lo que algunos proveedores de analítica web tienen que pagar por su uso. En cambio lo que llamamos el cocinado de los datos, véase el tratamiento de la información recogida por el marcador para a posteriori mostrar los datos en la solución, es totalmente distinto para cada proveedor.

Otro de los puntos de diferencia es la inclusión o eliminación del tráfico de robots.

En todos estos años que llevo en la analítica web, siempre me preguntan los clientes: "mis datos no cuadran".
Profundizando en el tema de las diferencias, los robots tienen una buena culpa de ella. Pero me diréis: los robots no ejecutan los scripts, pero cada día hay más robots que los ejecutan por diversas razones. Incluso en Nielsen tenemos el robot de AdRelevance que los ejecuta para poder captar la publicidad.
Tanto en SiteCensus como en Market Intelligence, aplicamos un filtrado de robots importante.

Dicho filtrado se efectúa de dos modos:
- Lista de robots
Tenemos una lista de robots muy extensa que se ha creado a lo largo de los años partiendo de una base que obtenemos ABCe de UK. Aunque con la experiencia adquirida hemos ido incrementándola.
- Filtrado de tráfico no-humano
Aplicando unos algoritmos filtramos el tráfico considerado no-humano, retiramos el tráfico que no es factible siendo un ser vivo.

¿Cómo hemos comprobado el buen funcionamiento de ambas técnicas?
Para el listado de robots, vimos que en un sitio, si no aplicábamos dicho filtro los datos se acercaban mucho a los datos de otro proveedor. Eso nos dio la pista sobre la pobreza de otros proveedores a la hora de filtrar los robots.

Para el filtro de tráfico no-humano, el caso fue bastante más vistoso. Teníamos un cliente que se quejaba de las diferencias con su otro proveedor. Haciendo las investigaciones oportunas, dicho cliente tenía un robot interno, que solo visitaba una página de su sitio que solo era accesible para dicho robot.
En los datos del otro proveedor aparecía está pagina con sus datos, en cambio en SiteCensus no se mostraba esta página. Eso demostró que el filtrado no-humano funcionaba correctamente.

Buscando información por la red, se puede encontrar muchos ejemplos de gente que se preocupa de esos robots en sus datos de analítica web. Por ejemplo en Google Analytics.

1 comentario:

MartinezAlegre dijo...

Aunque tenga su tiempo la entrada, sigue siendo vigente y muy interesante!