网站分析技术专题

WEB分析工具概述

1．挑战
　　在竞争日益激烈的网络经济中，只有赢得用户才能最终赢得竞争的优势。作为一个网站，你知道用户都在你的网站上干什么吗？你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦？什么地方出了安全漏洞？什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户？你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗？“知己知彼，才能百战不殆”，你真的了解自己吗？
2．机会
　　所有客户行为的电子化（Click Stream），使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会，从这“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
3．我们能做什么
3．1 基本分析
流量分析
　　随时间的变化，网络流量怎样变化？每一张网页、每一个目录、每一个内容模块的流量分配情况怎样。
广告分析
　　我们做的哪些广告给我们带来了最大的访问量？投资收益比是多少？我们自己网站上的广告又有多少点击率，什么位置上的广告点击率最高？
网站出入口分析
　　用户在哪里进入网站。每次都经过首页？还是通过搜索引擎直接进入感兴趣的页。用户在哪一页过后跳出了网站？有多少人是这样出去的？
访问路径分析
　　用户的访问路径都是什么样的？他们怎样进入某一特定内容？我们吸引用户进入一个特定目标的措施效果如何？
用户来源分析
　　我们最重要的用户都来自哪里？什么国家、地区，从哪个网站过来？那个ISP对我来说是最重要的，在来源上我们的用户有哪些特征？
浏览器和平台分析
　　用户都用什么样的浏览器、什么操作系统访问我的网站？在设计网站时具体要做哪些权衡和优化。
3．2 智能分析（数据挖掘）
网页相关性分析
　　哪些网页具有密切的关系，如果很多人具有a.html' b.html' c.html这样的访问模式，则我们可以认定a.html和c.html之间有一定的关系，是否考虑在a.html上直接加上c.html的链接？
用户访问模式分析
　　有哪一些网页，用户只要访问了其中的一页，则可以断定他也要访问其他的网页？即按不同的用户访问模式，把网页分组，得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似（具有类似的兴趣），即根据用户行为的相似性，把用户按行为模式分类。
用户归类
　　通过用户填写的信息如何把用户归入某一特定的类别？然后可对同一类别中的用户提供相似的服务。
4．用户可以得到什么
对网站的修改更加有目的、有依据，稳步的提高用户满意度。
　　发现系统性能瓶颈，找到安全漏洞。
　　查看网站流量模式，找到网站最重要的部分。
　　发现用户的需要和兴趣，对需求强烈的地方提供优化。
　　根据用户访问模式修改网页之间的连接，把用户想要的东西以更快且有效的方式提供给用户。
　　在正确的地方正确的时间把正确的信息提供给正确的人。
测定投资回报率
　　测定广告和促销计划的成功度。
　　找到最有价值的ISP和搜索引擎。
　　测定合作和结盟网站对自身的价值。
提供个性化网站
　　对大多数Web应用来说，让用户感到真个网站是完全为他自己定制的个性化网站，是Web站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好（数据挖掘算法得到的用户访问模式），向用户动态的提供要浏览的建议，自动提供个性化的网站。
典型商业问题
　　网站的访问量增加了吗？在什么地方？为什么？
　　用户对我们的新的应用（功能、内容）反映如何？
　　我们的新一轮宣传攻势效果如何？
　　怎样评价我们做的某一项广告？
　　访问我们网站的都是一些什么人？
　　用户是否要经过复杂的步骤才能得到他想要的东西？
　　哪些应用（内容）占据了大部分的网络流量？
　　哪些用户在使用网站上体现了相似的行为？
5．技术问题
数据处理
　　如何得到分析和数据挖掘所用的数据，主要采用两种方法，一是直接使用Web Server的log文件，二是用网络监听的办法，在数据包中提取出HTTP请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内，供统计分析和数据挖掘使用
统计分析
　　在数据库的基础上，针对不同的数据运行各种统计函数。
数据挖掘
　　数据挖掘技术是实现智能分析，得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据（即我们通过数据处理得到的数据）应用各种数据挖掘技术，得到高层知识，提供给用户作决策支持，或利用这些知识动态生成网页，为用户提供访问建议。
　　关联规则（Association Rules）
　　发现server session中请求网页的相关性。
　　可用于：优化网站组织，网络代理中的预取功能。
　　聚集（Clustering）
　　使用分组（usage clusters）把具有相似浏览模式的用户分成组。
　　可用于：电子商务应用中市场分片（market segmentation）和为用户提供个性化服务。
　　网页分组（page clusters）按内容的相似性把网页分类。
　　可用于：搜索引擎和Web浏览助手（Web assistance providers），为用户提供推荐链接。
　　归类（Classification）
　　根据用户的个人资料，将其归入某一特定的类。
　　可使用：决策树、naive Bayesian classifiers、k-最近邻居等算法。
　　序列模式（Sequential Patterns）
　　发现一个session内部的网页间的时间相关性。
　　可用于：预测用户的访问，而提供建议。