欢迎访问华乐美文网

网站日志数据

日志2019-07-09 13:13书业网

篇一:如何通过用数据挖掘技术来分析Web网站日志?

如何通过用数据挖掘技术来分析Web网站日志?

收集web日志的目的

Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。

1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯,并且同时为用户提供有针对性的电子商务活动和个性化的信息服务,应用信息推拉技术构建智能化Web站点。

2、以分析Web站点性能为目标,主要从统计学的角度,对日志数据项进行粗略的统计分析,得到用户频繁访问页、单位时间的访问数、访问数量随时间分布图等。现有的绝大多数的Web日志分析工具都属于此类。

3、以理解用户意图为目标,主要是通过与用户交互的过程收集用户的信息,Web服务器根据这些信息对用户请求的页面进行裁剪,为用户返回定制的页面,其目的就是提高用户的满意度和提供个性化的服务。

收集方式

网站分析数据主要有三种收集方式:Web日志、Javascript标记和包嗅探器。

1. Web日志

web日志处理流程:

从上图可以看出网站分析数据的收集从网站访问者输入URL向网站服务器发出http请求就开始了。网站服务器接收到请求后会在自己的Log文件中追加一条记录,记录内容包括:远程主机名(或者是IP地址)、登录名、登录全名、发请求的日期、发请求的时间、请求的详细(包括请求的方法、地址、协议)、请求返回的状态、请求文档的大小。随后网站服务器将页面返回到访问者的浏览器内得以展现。

2. Javascript标记

Javascript标记处理流程:

上图所示Javascript标记同Web日志收集数据一样,从网站访问者发出http请求开始。不同的是,Javascript标记返回给访问者的网页代码中会包含一段特殊的Javascript代码,当页面展示的同时这段代码也得以执行。这段代码会从访问者的Cookie中取得详细信息(访问时间、浏览器信息、工具厂商赋予当前访问者的userID等)并发送到工具商的数据收集服务器。数据收集服务器对收集到的数据处理后存入数据库中。网站经营人员通过访问分析报表系统查看这些数据。

3. 包嗅探器

通过包嗅探器收集分析的流程:

上图可以看出网站访问者发出的请求到达网站服务器之前,会先经过包嗅探器,然后包嗅探器才会将请求发送到网站服务器。包嗅探器收集到的数据经过工具厂商的处理服务器后存入数据库。随后网站经营人员就可以通过分析报表系统看到这些数据。 web日志挖掘过程

整体流程参考下图:

1、数据预处理阶段根据挖掘的目的,对原始Web日志文件中的数据进行提取、分解、合并、最后转换为用户会话文件。该阶段是Web访问信息挖掘最关键的阶段,数据预

处理包括:关于用户访问信息的预处理、关于内容和结构的预处理。

2、会话识别阶段该阶段本是属于数据预处理阶段中的一部分,这里将其划分成单独的一个阶段,是因为把用户会话文件划分成的一组组用户会话序列将直接用于挖掘算法,它的精准度直接决定了挖掘结果的好坏,是挖掘过程中最重要的阶段。

3、模式发现阶段模式发现是运用各种方法和技术从Web日志数据中挖掘和发现用户使用Web的各种潜在的规律和模式。模式发现使用的算法和方法不仅仅来自数据挖掘领域,还包括机器学习、统计学和模式识别等其他专业领域。

模式发现的主要技术有:统计分析(statistical analysis)、关联规则(association rules)、聚类(clustering)、归类(classification)、序列模式(sequential patterns)、依赖关系(dependency)。

(1)统计分析(statistical analysis):常用的统计技术有:贝叶斯定理、预测回归、对数回归、对数-线性回归等。可用来分析网页的访问频率,网页的访问时间、访问路径。可用于系统性能分析、发现安全漏洞、为网站修改、市场决策提供支持。

(2)关联规则(association rules):关联规则是最基本的挖掘技术,同时也是WUM最常用的方法。在WUM中常常用在被访问的网页中,这有利于优化网站组织、网站设计者、网站内容管理者和市场分析,通过市场分析可以知道哪些商品被频繁购买,哪些顾客是潜在顾客。

(3)聚类(clustering):聚类技术是在海量数据中寻找彼此相似对象组,这些数据基于距离函数求出对象组之间的相似度。在WUM中可以把具有相似模式的用户分成组,可以用于电子商务中市场分片和为用户提供个性化服务。

(4)归类(classification):归类技术主要用途是将用户资料归入某一特定类中,它与机器学习关系很紧密。可以用的技术有:决策树(decision tree)、K-最近邻居、Na?ve Bayesian classifiers、支持向量机(support vector machines)。

篇二:网站日志分析的具体方法和步骤【基础】

网站日志挖掘分析的方法

日志文件的格式及其包含的信息

①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico ⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:

1.8.0.3)+Gecko/20060426

+Firefox/1.5.0.3。

①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等);

⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。

一、日志的简单分析

1、注意那些被频繁访问的资源

2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:

3、观察搜索引擎蜘蛛的来访情况

4、观察访客行为

应敌之策:

1、封杀某个IP

2、封杀某个浏览器类型(Agent)

3、封杀某个来源(Referer)

4、防盗链

5、文件重命名

作用:

1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。

2.对IP进行统计,可以得到用户的分布情况。

3.对请求URL的统计,可以得到网站页面关注情况。

4.对错误请求的统计,可以更正有问题的页面。

二、网站挖掘

根据所挖掘的网站 数据的类型,可以将网站 数据挖掘分为以下三类:网站 内容挖掘(网站 Content Mining)、网站 结构挖掘(网站 Structure Mining)、网站 使用挖掘(网站 Usage Mining)(也称为网站日志挖掘)。

①网站内容挖掘。网站内容挖掘是指从文档的内容中提取知识。网站内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,网站文本挖掘已经有了比较实用的功能。网站文本挖掘可以对网站上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用网站文档进行趋势预测等。网站文档中的标记,例如<Title>和<Heading>等蕴含了额外的信息,可以利用这些信息来加强网站文本挖掘的作用。

②网站结构挖掘。网站结构挖掘是从网站的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。网站结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高网站搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。网站结构挖掘还可以用于对网站页进行分类、预测用户的网站链接使用及网站链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。

③网站使用记录挖掘。网站使用记录挖掘是指从网站的使用记录中提取感兴趣的模式,目前网站使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究网站日志记录中的规律,来识别网站的潜在用户;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行网站日志挖掘;可以根据用户访问的网站记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些网站页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。

通过对网站服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。当前,网站日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及网站特征描

述等诸多领域。

三、网站日志挖掘的方法

(一)首先,进行数据的预处理。

从学习者的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理才能进行挖掘。因此,需要通过日志清理,去除无用的记录;对于某些记录,我们还需要通过站点结构信息,把URL路径补充成完整的访问序列;然后划分学习者,并把学习者的会话划分成多个事务。

(二)其次,进行模式发现

一旦学习者会话和事务识别完成,就可以采用下面的技术进行模式发现。模式发现, 是对预处理后的数据用数据挖掘算法来分析数据。分有统计、分类、聚类、关等多种方法。

① 路径分析。它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。路径分析可以用来确定网站上的频繁访问路径, 从而调整和优化网站结构, 使得用户访问所需网页更加简单快捷, 还可以根据用户典型的浏览模式用于智能推荐和有针对性的电子商务活动。例如:70% 的学习者在访问/ E-Business /M2时,是从/EB开始,经过/ E-Business /SimpleDescription,/ E-Business /M1;65%的学习者在浏览4个或更少的页面内容后就离开了。利用这些信息就可以改进站点的设计结构。

② 关联规则。 使用关联规则发现方法,可以从网站的访问事务中找到的相关性。关联规则是寻找在同一个事件中出现的不同项的相关性,用数学模(转载于:www.cSSyq.co m 书 业 网:网站日志数据)型来描述关联规则发现的问题:x=>y的蕴含式,其中x,y为属性——值对集(或称为项目集),且X∩Y空集。在数据库中若S%的包含属性——值对集X的事务也包含属性——值集Y,则关联规则X=>Y的置信度为C%。

③ 序列模式。在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。它能发现数据库中如“在某一段时间内,客户购买商品A,接着会购买商品B,尔后又购买商品C,即序列A→B→C出现的频率高”之类的信息。序列模式描述的问题是:在给定的交易序列数据库中,每个序列按照交易的时间排列的一组交易集,挖掘序列函数作用是返回该数

据库中高频率出现有序列。

④ 分类分析。发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类学习者。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法,此外还有神经元网络、Bayesian分类等。例如:在/ E-Business /M4学习过的学习者中有40%是20左右的女大学生。

⑤聚类分析。可以从网站访问信息数据中聚类出具有相似特性的学习者。在网站事务日志中,聚类学习者信息或数据项能够便于开发和设计未来的教学模式和学习群体。聚类是将数据集划分为多个类,使得在同一类中的数据之间有较高的相似度,而在不同类中的数据差别尽可能大。在聚类技术中,没有预先定义好的类别和训练样本存在,所有记录都根据彼此相似程度来加以归类。主要算法有k—means、DBSCAN等。聚类分析是把具有相似特征的用户或数据项归类,在网站管理中通过聚类具有相似浏览行为的用户。基于模糊理论的网站页面聚类算法与客户群体聚类算法的模糊聚类定义相同,客户访问情况可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客户Ci和URL(Uj)间的关联度:式中m为客户的数量,hits(Ci)表示客户Ci访问URL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵,再根据相似类[Xi]R的定义构造相似类,合并相似类中的公共元素得到的等价类即为相关网站页面。

⑥统计。统计方法是从网站 站点中抽取知识的最常用方法, 它通过分析会话文件, 对浏览时间、浏览路径等进行频度、平均值等统计分析。虽然缺乏深度, 但仍可用于改进网站结构, 增强系统安全性, 提高网站访问的效率等。

⑦协同过滤。协同过滤技术采用最近邻技术,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。

(三)最后,进行模式分析。

模式分析。基于以上的所有过程,对原始数据进行进一步分析,找出用户的浏览模式规律,即用户的兴趣爱好及习惯,并使其可视化,为网页的规划及网站建设的决策提供具体理论依据。其主要方法有:采用SQL查询语句进行分析;将

数据导入多维数据立方体中,用OLAP工具进行分析并给出可视化的结果输出。(分类模式挖掘、聚类模式挖掘、时间序列模式挖掘、序列模式挖掘、关联规则等)

四、关联规则

(一)关联规则

顾名思义,关联规则(association rule)挖掘技术用于于发现数据库中属性之间的有趣联系。一般使用支持度(support)和置信度(confidence)两个参数来描述关联规则的属性。

1.支持度。规则X??Y在数据库D中的支持度(support)是交易集中同时包

?? Y) ?support(X?Y)。含X, Y的事务数与所有事务数之比,记为support(X

支持度描述了X,Y这两个项集在所有事务中同时出现的概率。

2.置信度。规则X??Y在事务集中的置信度(confidence)是指同时包含X,Y的事务数与包含X的事务数之比,它用来衡量关联规则的可信程度。记为 confidence(X?Y)?support(X?Y)/support(X)

规则 A ? C:支持度= support({A}?{C}) = 50%,置信度= support({A}?{C})/support({A}) = 66.6%

(二)Apriori方法简介

Apriori算法最先是由Agrawal等人于1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度项集,用频繁的(k—1)-项集生成候选的频繁k-项集;其次利用大项集产生所需的规则;任何频繁项集的所有子集一定是频繁项集是其核心。

Apriori算法需要两个步骤:第一个是生成条目集;第二个是使用生成的条目

篇三:查看网站日志都要分析哪些?

查看网站日志都要分析哪些?

1,每个目录、每个搜索引擎的抓取量

上边两步把总体抓取量、不重复抓取量记录下来了,然后我们要分析出每个搜索引擎对每一个目录的抓取情况是怎么样的,这样利于进行分块优化,例如当你网站推广流量上升时,你可以知道是哪个目录的流量上升了,然后再往下推,看看是哪个目录的抓取量上升了,哪个目录的抓取量下降了,为什么下降,都可以进行分析的,然后在网站中进行适当的链接结构调整,例如使用nofflow标签等。

2,统计搜索引擎蜘蛛来的次数、来的时间

我们可以使用一些日志分析工具,设定一个标准,例如光年日志分析工具,可以统计出每个搜索引擎蜘蛛每天来的次数,一天一共在我们网站停留了多久,有没有IP蜘蛛一天24小时都在我们网站不停的抓取,这样的蜘蛛越多越好,往往是你网站推广权重提升的表现。这样的数据可以每天都记录下来,在一定的时间段内,进行对比分析,看看停留的时间是不是增加了,来的次数是不是增多了,这样可以判断出网站推广权重是上升还是下降,例如:szjk365.com这个站每天都会在下午五六点左右,这主要是由于网站定期都会进行更新内容,当然2013年春节也不例外。

3,记录搜索引擎蜘蛛的不重复抓取量

上一步我们把蜘蛛的抓取量数据给分析出来了,然后我们要进行去重,也就是搜索引擎的唯一不重复抓取量,其实对于收录来说,许多页面只要抓取一次就可以了,可是在实际操作的过程当中,许多页面都是被重复抓取的,谷歌的技术比较先进一些,重复抓取率也许会低一些,可是百度等搜索引擎,重复抓取率却非常高,你通过网站推广日志分析就可以看出来了,一天如果抓取量上百万,可能好几万次都是抓取首页的,所以许多数据你一定要去分析的,当你分析了后,你会知道问题的严重性。

4,每个搜索引擎的总体抓取量

在日志文件中,明确的记录了每个搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取记录,我们都可以进行记录,使用dos命令或者linux命令都可以去实现的,搜索引擎的收录是由抓取量以及文章质量来决定的,当文章质量不变的情况下,蜘蛛抓取量越大,那么收录的就会越多,我们在进行日志分析时候,一定要清楚的知道网站推广蜘蛛每天的抓取量到底是一个什么情况,而且每天都要记录,也许绝对值说明不了什么,我们可以去看它的网络营销趋势,当某一天抓取量的趋势在下降时,我们就要去找原因了。

篇四:网站日志文件分析方法

网站日志文件分析方法

通过分析网站日志Log文件我们可以看到用户和搜索引擎蜘蛛访问网站的行为数据,这些数据能让我们分析出用户和蜘蛛对网站的偏好以及网站的健康情况。在网站日志分析中,我们主要需要分析的是蜘蛛行为。

在蜘蛛爬取及收录过程中,搜索引擎会给特定权重网站分配相应的资源量。一个搜索引擎友好型的网站应该充分利用这些资源,让蜘蛛可以迅速、准确、全面的爬取有价值、用户喜欢的内容,而不浪费资源在无用的、访问异常的内容上。

但由于网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer。

在分析日志时,对于单日日志文件我们需要分析的内容有:访问次数、停留时间、抓取量、目录抓取统计、页面抓取统计、蜘蛛访问IP、HTTP状态码、蜘蛛活跃时段、蜘蛛爬取路径等;对于多日日志文件我们需要分析的内容有:蜘蛛访问次数趋势、停留时间趋势、整体抓取趋势、各目录抓取趋势、抓取时间段、蜘蛛活跃周期等。

下面我们来看看网站日志如何分析?

网站日志数据分析解读:

1、访问次数、停留时间、抓取量

从这三项数据中我们可以得知:平均每次抓取页面数、单页抓取停留时间和平均每次停留时间。

平均每次抓取页面数=总抓取量/访问次数

单页抓取停留=每次停留/每次抓取

平均每次停留时间=总停留时间/访问次数

从这些数据我们可以看出蜘蛛的活跃程度、亲和程度、抓取深度等,总访问次数、停留时间、抓取量越高、平均抓取页面、平均停留时间,表明网站越受搜索引擎喜欢。而单页抓取停留时间表明网站页面访问速度,时间越长,表明网站访问速度越慢,对搜索引擎抓取收录较不利,我们应尽量提高网页加载速度,减少单而立停留时间,让爬虫资源更多的去抓取收录。

另外,根据这些数据我们还可以统计出一段时间内,网站的整体趋势表现,如:蜘蛛访问次数趋势、停留时间趋势、抓取趋势。

2、目录抓取统计

通过日志分析我们可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、重要页面目录抓取状况、无效页面目录抓取状况等。通过对比目录下页面抓取及收录情况,我们可以发现更多问题。对于重要目录,我们需要通过内外调整增加权重及爬取;对于无效页面,在robots.txt中进行屏蔽。

另外,通过多日日志统计,我们可以看到站内外行为给目录带来的效果,优化是否合理,是否达到了预期效果。对于同一目录,以长期时间段来看,我们可以看到该目录下页面表现,根据行为推测表现的原因等。

3、页面抓取

在网站日志分析中,我们可以看到具体被蜘蛛爬取的页面。在这些页面中,我们可以分析出蜘蛛爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值页面、爬取了哪些重复页面url等,为充分利用蜘蛛资源我们需要将这些地址在robots.txt中禁止爬取。

另外,我们还可以分析未收录页面原因,对于新文章,是因为没有被爬取到而未收录抑或爬取了但未放出。对于某些阅读意义不大的页面,可能我们需要它作为爬取通道,对于这些页面,我们是否应该做Noindex标签等。但从另一方面讲,蜘蛛会弱智到靠这些无意义的通道页爬取页面吗,蜘蛛不懂sitemap?【对此,笨鸟有疑惑,求分享经验】

4、蜘蛛访问IP

曾经有人提出过通过蜘蛛的ip段来判断网站的降权情况,笨鸟感觉这个意义不大,因为这个后知性太强了。而且降权更多应该从前三项数据来判断,用单单一个ip段来判断意义不大。IP分析的更多用途应该是判断是否存在采集蜘蛛、假蜘蛛、恶意点击蜘蛛等。

5、访问状态码

蜘蛛经常出现的状态码如301、404等,出现这些状态码要及时处理,以避免对网站造成坏的影响。

6、抓取时间段

通过分析对比多个单日蜘蛛小时爬取量,我们可以了解到特定蜘蛛对于本网站在特定时间的活跃时段。通过对比周数据,我们可以看到特定蜘蛛在一周中的活跃周期。了解这个,对于网站内容更新时间有一定指导意义,而之前所谓小三大四等均为不科学说法。

7、蜘蛛爬取路径

在网站日志中我们可以跟踪到特定IP的访问路径,如果我们跟踪特定蜘蛛的访问路径则能发现对于本网站结构下蜘蛛的爬取路径偏好。由此,我们可以适当的引导蜘蛛的爬取路径,让蜘蛛更多的爬取重要、有价值、新更新页面。其中爬取路径中我们双可以分析页面物理结构路径偏好以及url逻辑结构爬取偏好。通过这些,可以让我们从搜索引擎的视角去审视自己的网站。

本文来自:武汉SEO培训 ww.qicaoit.com

Copyright @ 2012-2024华乐美文网 All Rights Reserved. 版权所有