如何提高在线营销的数据精准性-1

by Echo Ma on July 5, 2009

This is the first part of the translated work of a white paper Increasing Acuracy for Online Business Growth by Dr. Brian Clifton, former European Head of Web Analytics at Google.  Data acuracy is the foundamental of web analytics. This white paper helps readers to understand  1) How web sites collect visitor data? 2) data collection issues affecting logfiles, page tags & when using cookies. 3) Data collection from different vendors; 4) And why paid search number doesn’t match.  He provides 10 recommendations as summary which I find highly valuable.  Echo Ma translated (not word by word) into Chinese and will publish it as two posts. - Min

互联网在过去十年里改变了市场的运营模式。然而,尽管网站提供了一个相当大的销售服务平台,但对于需要深入分析用户行为的在线商务公司来说,能获得最为直接和真实的信息尤为关键。

对于网站分析来说,要获得数据不难,但做到百分之百准确是不可能的,甚至估计其中的误差都是非常困难的。幸而我们发现,数据的误差量在一定时间周期内基本都保持恒定,所以总结出一个数据规律衡量准则。借此,市场人员可以非常直接地了解市场营销的效果。

如何收集处理数据的?

到目前为止,通常使用两种方法获得数据: Page Tag (页面标记) 和Logfile (日志文件)。

Page Tags
通过用户的浏览器收集,在网站的所有页面搁置一段JavaScript代码后就可以达到这种功能。这叫做用户方数据收集,托管、外包型的供应商都用这个方法。

1Logfiles
服务器独立于用户浏览器收集数据的方式。这种方法称为服务器方数据收集。采集所有向服务器发出的请求,请求包括网页、图片、pdf文件等,“独立”软件开发商通常是用logfiles。

2

以前,简单易用的Logfiles是最常用的,就借这些数据分析用户行为。但是近些年,Page tags越发走俏。不单是从技术角度来说,它实施起来更简便,并且数据的收集处理都是由开发商服务器来一并完成的,节省了成本,也不用再为维护采集数据的软件而费心。

但是,请注意,如果孤立去看这两者,会发现他们都还是有局限性的。下表概括了这两种方法与其数据结果的不同之处。
有这样一个误解,认定page tag的技术比其他方法都要领先,但是就下表综合起来看,用什么样的手段方法取决于个体需求。表中显示的一方的强势又恰好是另一方的弱势。

Page Tagging
优势

  • 突破代理和缓存服务器限制-
  • 更精确的会话追踪(session tracking)
  • 追踪用户方行为(events)-能够统计JavaScript, Flash, Web 2.0
  • 抓取用户方的电子商务数据-但是服务器方的数据如何搜集,仍有待解决
  • 收集用户数据是近乎实时的
  • 供应商自主程序更新
  • 允许供应商对数据存档
  • Logfiles
    优势

  • 易于调出历史数据,进行再处理
  • 不用担心防火墙的问题
  • 能够跟踪统计带宽和完整下载的文件-可以区分完全下载和部分下载
  • 默认记录下搜索引擎蜘蛛机器人的爬行
  • 默认记录下手机用户的访问

  • 劣势

  • 安装错误会导致数据丢失-如果你的tags没有安装准确,会造成数据遗失,而且丢失的数据无法追溯
  • 防火墙会屏蔽掉tags
  • 不能追踪带宽或者完整下载-tags是在页面、文件发出请求的时候触动,不是在下载完成后
  • 不能检测到搜索引擎蜘蛛(Search engine spiders)-蜘蛛机器人会忽略tags
  • 劣势

  • 代理和缓存都导致了不精确-如果一个网页在缓存中,那么服务器不会记录这次访问
    -
    不能检测events行为-这包括了JavaScript, Flash, Web 2.0
  • 网站自身要负责软件更新
  • 网站自身负责所有的数据存储工作
  • 搜索引擎蜘蛛爬行导致访问量高出实际值
  • 影响logfiles准确性的因素?

    • 一人一ip
      通常,来自同一ip地址,又是相同数字签名浏览器发出的所有点击都被logfiles算作一个visitor session(用户会话)。但是如果当互联网服务提供商(ISPs)在一个session过程中分配了动态ip,那统计就不准确了。comScore最近一次的研究表明,家用PC机平均每月使用10.5个ip。这样一来,logfile要把他们算作10.5个UV(独立ip访问)了。
      相同数字签名的浏览器(例如IE)也会越发扩大不准确性。以上两个因素都导致了visitor算重了。使用cookies可以解决这个问题。
    • 缓存的页面只被记录一次
      用户已经浏览的页面会存在计算机里,下次访问,就直接从本地缓存读出。这就意味着服务器不会记录第二次的访问。另外,现在大多数网站利用“Web缓存加速”来提速,将网页内容缓存在内存中。这代表用户所请求的页面直接从缓存中读出,而非网站本身,这也会影响统计。
    • 搜索引擎robots让数据大过其实
      robots最主要的作用是爬行网页给搜索引擎收录的。除此之外他们还有其他用途,譬如查看服务器性能(工作时间、下载速度等)和页面分析(比价,邮件发送等)。由于robots数据很难过滤彻底剔除,这部分数据,会影响到实际visitor的大小。就这一点,数据差会很惊人。
    • Logfiles记录了手机用户

    影响page tages准确性的因素?

    • 安装错误会导致数据丢失
      实施page tages就是依靠网站管理人员在每页加入tag代码,就算是自动添加tag或用相应软件,白密一疏也是常有的。
    • JavaScript错误中止页面加载
      只有用户浏览器开启JavaScript才可以保证page tags正常检测。幸好只有1-3%用户关闭了JavaScript。但是就算JavaScript添加无误,这个网页的上的任一JavaScript出错,都会导致置于它下面的page tag无法执行。
    • 防火墙阻挡掉了page tags
      当防火墙设置了拒绝发送cookie或者删除cookie之后,也就阻断了收集数据服务器的数据来源。这对数据的准确性带来巨大的影响。有些供应商会在这种情况下使用IP地址来判断用户,不过这种混合计算方法最好别用。因为从之前所提到的“一人一IP”来看,如果要用IP地址来判别这部分被防火墙禁掉的访问,还不如不算。只要保持数据一致性就好了。

    以上是我所翻译Increasing Accuracy for Online Business Growth的第一部分,详细介绍了两种数据获得的方法,并比较了其造成误差,影响数据准确性的因素。第二部分主要涉及影响cookies准确性的因素,另外还有10个有效提高数据准确性的建议。
    敬请期待^^.


    Share and Enjoy:
    • Print this article!
    • Digg
    • Sphinn
    • del.icio.us
    • Facebook
    • Mixx
    • Google Bookmarks
    • Technorati
    • Twitter

    Related posts:

    1. 如何提高在线营销的数据精准性-2
    2. 知名公司招网站分析 Recurit the “head of measurement & analytics”
    3. Interview with Owen Lin
    4. The Hot Hot Shanghai WAW July Meetup

    { 1 comment… read it below or add one }

    Sidney Song July 7, 2009 at 5:30 pm

    感谢好文!

    有一个问题:
    “JavaScript错误中止页面加载
    只有用户浏览器开启JavaScript才可以保证page tags正常检测。幸好只有1-3%用户关闭了JavaScript。但是就算JavaScript添加无误,这个网页的上的任一JavaScript出错,都会导致置于它下面的page tag无法执行。”

    网页上的任一JavaScript出错一定会影响它下面的page tag吗?如果这个page tag有赖于这个JavaScript的话,应该是不行了。但是如果page tag属于另外一个独立的javascript,而其这个javascript没有出错的话,应该还是能够正常执行监测的。

    请指正。谢谢!

    [Reply]

    Echo Ma Reply:

    hi 宋星,谢谢你的问题。

    在翻译过程中,我没有把”error造成页面停止加载”翻译出来,特此贴出原文片段,以正视听:)。

    原文为:The inconsistent use of JavaScript code on web pages can cause a bigger problem - any errors in other JavaScript on the same page will immediately halt the browser scripting engine at that point, so a page tag placed below it will not execute.
    也就是说,有一个JavaScript造成了脚本错误,那这个页面的加载是停顿或是停止加载,那置于其下的js tracking code就算没有问题,也是不能够执行了。

    [Reply]

    Leave a Comment

    Previous post: 乐信为中国用户带来了Urchin 6

    Next post: First Shanghai Web Analytics Wednesday July 2009: July 15