This is the second part of the translated work of a white paper Increasing Acuracy for Online Business Growth by Dr. Brian Clifton, former European Head of Web Analytics at Google. In the first part of paper, author described in detail about two techniques of data collection: page tagging & logfiles and how does data collection issues affect accuracy. Check here if you are interested in it. The second part is mainly about "Cookie". The author also suggested 10 pieces of advice as summary.
The Humble Cookie
上一次已经提到,Page tag 通过在页面放一段JavaScript 收集数据,这段JavaScript也是用于创建和取回cookie的(如果有兴趣,可具体参看google analytics processing flow,其中亦包含cookie在数据收集过程中的详细处理过程)。那么什么是cookies?
Cookies 是由Web服务器发出的一个带name 和 value标识参数的txt文件,浏览器接收cookie暂存在硬盘里,每次发出请求时都会携带 cookie信息。web服务器记录用户访问信息。 对于网站分析来说,最主要的就是记录并通过ID辨认访客以备后用。cookie可以辨别一段时间内有多少新访客与多少回访者,也可以依据个人信息个性化页面。
Cookie的真实情况:
- cookies是暂存在电脑里的.txt格式的文本文件。
- 一台电脑的所有用户,用记事本都可以看到暂存的Cookie。
- cookies分为两类:First-party cookies(第一方cookie)和Third-party cookies(第三方cookie)。first-party cookie是指用户键入URL或通过链接键入网站,网站收到请求后以这个网站的域名建立。third-party cookie则不是由用户直接请求的,通常由第三方域名提供建立,third-party cookie可能与广告、插入媒体内容有关系。
- 只有访问的站点能够建立获取first-party cookies。
- 访问的站点可以允许其他域名浏览cookie信息。
- 电脑内的信息不会因为cookies受任何影响,你可以随时手动删除。
- cookies文件大小限制为4k。
- 各浏览器对cookie的限制不同,IE8和Firefox为50个,Opera为30个。
其他cookie的补充内容,请查看:
- HTTP cookie-Wikipedia
- How Internet Cookies Work-howstuffworks
- Cookie FAQ-cookiecentral
Cookies对收集数据准确性的影响?
- 用户拒绝发送或者删除cookies。
- 用户共享电脑。
- 用户行为对通过cookies收集数据的准确性有巨大影响,请 试想一下:
*单用户-多机 如今工作场所、住所、公共场所例如咖啡馆儿到处可以上网。一个人在3台机器上操作,便有了3个cookies,以现在的web analytics水平,还是会把所有这些匿名访问,逐一分开计算,造成了UV的重复计算。
*单机-多用户 一家人合用电脑,那cookies也就共用了(除非每次用完,登出、注销再换人)。 - 延时造成的数据不准确
从访客变成顾客,这个阶段需要的时间,叫做“延时”,延时会影响到web analytics的准确性。例如,对于低价产品来说,用户一般当即购买或者7天内会购买。就在这短短的时间差内,用户不太可能改变网络设置,那你的用户行为分析就有的放矢了。 但是一些高价产品,用户总要考虑更久些。譬如旅游、金融行业,从第一次访问到购买的时间可能要长达90天。用户很可能在这个时间段里系统升级,或者买了新电脑。这些情况就导致了,他们真正发生购买行为时,是以第一次登陆的新用户身份购买。
提高数据准确性的10个建议:
- 由企业需要和需要决定用什么样的数据工具。
- 数据收集最好是用第一方cookies。
- 避免数据混淆。例如,如果用户的第一方cookies被删除了,就不要用ip去捕获这部分visitor数据。可以直接忽略,保持数据一致。
- 排除所有的非用户流量,例如搜索引擎spider爬取产生的流量。
- 检测所有数据。不局限于landing pages(登陆页),而是检测所有的用户行为。
- 定期全面核查一下网站的page tag部署,避免有遗漏。
- 显示易读的保密协议,如果用户知道网站在检测他们的活动以及收集信息的用途,可能就不会主动删除cookies了。
- 数据可能会有数小时的延迟。
- 测试重定向Url,保证他们参数跟踪。
- 付费广告和免费广告记得用不同的跟踪URLs。
由于数据的误差,可能会造成严重误导,因此基于这些数据的分析也会大相径庭。以上的10种方法都可以帮助你判断哪些因素可能导致数据偏差,使数据尽可能的准确。
Related posts:









