欢迎访问华乐美文网

网站日志

日志2019-03-12 00:03书业网

篇一:教你怎么看自己网站的日志和优化

一、网站日志文件在哪里?

【简单说下网站虚拟主机FTP几个文件夹说明】

虚拟主机开通成功之后,会在您的FTP里面自动生成4个文件夹,分别是:"databases","logofiles","others","wwwroot",他们作用如下:

1、wwwroot文件夹:该文件夹内存放可以通过web访问的文件,您需要将您对外发布的网站文件上传到该目录下,输入域名访问到的文件将是该文件夹下的文件。

2、databases文件夹:该文件夹同logofiles、others文件夹一样,属于不可通过web访问的文件夹,即用户无法通过输入网址来访问这些文件夹下的文件,您可以在这些文件夹下上传一些不希望别人能够访问的文件。比如您可以将access数据库存放在databases文件夹下,这样可以最大化的保证您的数据库安全。

3、logofiles文件夹:logofiles文件夹是日志文件,该文件夹存放您的网站日志文件。通过日志文件您可以查询到网站的一些访问记录。(由于各个空间商的不同,本文件夹的命名也有少许差别有都命为:logofiles或者WEBLOG反正一般都会带上LOG这一个字母)

4、others文件夹:该站点存放您自定义的IIS错误文件。IIS默认的一些错误提示,比如404错误,403错误,500错误等等,如果您觉得这些错误提示不够个性化,您可以将您自定义的错误提示上传到该目录下。

二、怎样分析网站日志文件 分析举例说明

下面已IBM笔记本电脑论坛最近8月份的日志文件为例说明一下,空间日志代码如下:

2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+/search/spider.htm) 200 0 0 20006

1、首先以百度为例,分析说明:

访问时间:2009-08-23 16:06:03

百度蜘蛛的IP:58.61.160.170

蜘蛛爬这的网址: /nb/html/30/t-12730.html

合来起所表达的意思很明显:IP为58.61.160.170的百度蜘蛛在2009-08-23 16:06:03点43分对此网站上的/nb/html/30/t-12730.html 网页进行收录或更新了。

【补充说明】

2009-08-23 16:06:03是百度蜘蛛来访的日期及时间;

158.61.160.170 是百度蜘蛛的IP

“GET 是服务器的动作,不是GET就是POSP;GET是从服务器上获取内容;/nb/html/30/t-12730.html 使用HTML1.1协议获取相关内容200 是返回状态码,200是成功获取;404是文件没找到;401是需要密码,403禁止查看,500服务器错误。很明显此例子中最后返回是200,为成功获取!

“+(+/search/spider.htm)″表示来路

当然,还有部分空间日志会有这样一些代码,他们表示意思如下:

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。

2、接下来说说googlebot,我盼googlebot已经好久了,这几天它终于来了,然后我在上输入site:.cn上输入网址即可。不用加前缀site:,还有一点,觉得这几个月的雅虎中国在技术上有改进,在网站收录和关键词搜索上,大家可以自己去体会。

说完三大搜索爬虫,再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫:

1)msn: msn(msn live search beta)的搜索技术我个人觉得是难入流的,似乎比门户搜索更差,beta说明搜索版在测试阶段,现在电信采用msn的搜索技术,不知道电信的是什么眼光,呵呵。

2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68

- 80 GET 200 /html/down/20070129/550.html

2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比较难记,是ia_archiver。从严格意义上说,它不知道是不是爬虫,它与纯搜索引擎不同,是来侦测流量的居多,并不是来收录网页的。

3)Iask爱问: 2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)

2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68

- 80 GET 200 /html/webpromote/20070203/935.html

Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

4)sogou搜狗:

对于搜狗,我就觉得好笑了。大家记得我说过我的网站是改版过的,Brand是旧网站文件,早被我删除了。而且为了删除除搜索引擎收录的死链接,我在robots.txt文件中写着:Disallow: /Brand ,这当然禁止访问Brand下的文件,我这里想说的是,一、它sogou不遵守robots协议,二、对于已经删除近一个月的文件,它从哪里搜索而来。我真的不太明白了。

2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider

5)yodaoice:

对于这个,大家不要感觉惊讶,这是163新开发的搜索引擎,目前处于测试版,界面颇象google风格,但技术年幼,也象搜狗一样乱抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice

篇二:查看网站日志都要分析哪些?

查看网站日志都要分析哪些?

1,每个目录、每个搜索引擎的抓取量

上边两步把总体抓取量、不重复抓取量记录下来了,然后我们要分析出每个搜索引擎对每一个目录的抓取情况是怎么样的,这样利于进行分块优化,例如当你网站推广流量上升时,你可以知道是哪个目录的流量上升了,然后再往下推,看看是哪个目录的抓取量上升了,哪个目录的抓取量下降了,为什么下降,都可以进行分析的,然后在网站中进行适当的链接结构调整,例如使用nofflow标签等。

2,统计搜索引擎蜘蛛来的次数、来的时间

我们可以使用一些日志分析工具,设定一个标准,例如光年日志分析工具,可以统计出每个搜索引擎蜘蛛每天来的次数,一天一共在我们网站停留了多久,有没有IP蜘蛛一天24小时都在我们网站不停的抓取,这样的蜘蛛越多越好,往往是你网站推广权重提升的表现。这样的数据可以每天都记录下来,在一定的时间段内,进行对比分析,看看停留的时间是不是增加了,来的次数是不是增多了,这样可以判断出网站推广权重是上升还是下降,例如:szjk365.com这个站每天都会在下午五六点左右,这主要是由于网站定期都会进行更新内容,当然2013年春节也不例外。

3,记录搜索引擎蜘蛛的不重复抓取量

上一步我们把蜘蛛的抓取量数据给分析出来了,然后我们要进行去重,也就是搜索引擎的唯一不重复抓取量,其实对于收录来说,许多页面只要抓取一次就可以了,可是在实际操作的过程当中,许多页面都是被重复抓取的,谷歌的技术比较先进一些,重复抓取率也许会低一些,可是百度等搜索引擎,重复抓取率却非常高,你通过网站推广日志分析就可以看出来了,一天如果抓取量上百万,可能好几万次都是抓取首页的,所以许多数据你一定要去分析的,当你分析了后,你会知道问题的严重性。

4,每个搜索引擎的总体抓取量

在日志文件中,明确的记录了每个搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取记录,我们都可以进行记录,使用dos命令或者linux命令都可以去实现的,搜索引擎的收录是由抓取量以及文章质量来决定的,当文章质量不变的情况下,蜘蛛抓取量越大,那么收录的就会越多,我们在进行日志分析时候,一定要清楚的知道网站推广蜘蛛每天的抓取量到底是一个什么情况,而且每天都要记录,也许绝对值说明不了什么,我们可以去看它的网络营销趋势,当某一天抓取量的趋势在下降时,我们就要去找原因了。

篇三:网站日志解析

日志注释

下面我从IP为222.73.107.29的服务器上面的/log/doud365.com/W3SVC45中挑出几处日志文件做整体解释。

1、2012-07-04 03:49:29 222.73.107.29 GET /bbs/thread-1665-1-1.html - 80 - 220.181.108.145 Mozilla/5.0+(compatible;+Baiduspider/2.0;++/search/spider.html) 404 0 64 93

注:IP为220.181.108.145的百度蜘蛛于2012-07-04 03:49:29 对IP为222.73.107.29 上的该网站的目录为 /bbs/thread-1665-1-1.html 的页面进行了收录或者更新,由于返回的是404,所以此文件未找到,应该是删掉了。

2、2012-07-04 03:50:51 222.73.107.29 GET /temple(来自:WWw.cssyq.Com 书业网:网站日志)ts/fuzhou/js/index.js - 80 - 1.192.15.238 Mozilla/4.0+(compatible;+MSIE+8.0;+Windows+NT+5.1;+Trident/4.0;+QQDownload+708;+.NET+CLR+2.0.50727;+360SE) 200 0 0 138

注:IP为1.192.15.238的用户于2012-07-04 03:50:51对222.73.107.29上的该网站的目录为/templets/fuzhou/js/index.js 的文件进行了访问,由于返回的是200,所以访问成功。

3、2012-07-04 03:53:26 222.73.107.29 GET / - 80 - 116.226.48.12

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) 301 0 0 10

注:IP为116.226.48.12 的用户 于2012-07-04 03:53:26 对222.73.107.29 上的该网站进行了修改,返回301,说明正进行域名重定向。

4、2012-07-04 05:42:43 222.73.107.29 GET /templets/fuzhou/images/icoxs.gif - 80 - 116.226.48.12

Mozilla/4.0+(compatible;+MSIE+8.0;+Windows+NT+5.1;+Trident/4.0;+GTB7.2;+.NET+CLR+2.0.50727;+.NET+CLR+3.0.04506.648;+.NET+CLR+3.0.4506.2152;+.NET+CLR+3.5.30729;+360SE) 304 0 0 70

注:IP为116.226.48.12 的用户于2012-07-04 05:42:43 对222.73.107.29上的该网站上的 /templets/fuzhou/images/icoxs.gif文件 进行了修改或更新,返回304,说明已执行该修改此图片,但是由于某些原因,执行结果未成功。

---------------------------------------------------------------------------------------------------------------------- ----------------------------------------------------------------------------------------------------------------------

篇四:Seo们如何查看网站日志和分析网站日志

Seo从业人员如何查看网站日志和分析网站日志

Seo从业人员如何查看网站日志和分析网站日志

网站日志是什么?

作为一个网站管理人员,我们该除了通过流量统计工具来查看网站访问人数之外,并不能帮助我们很好地了解网站的运行状况,而网站日志的出现很好地帮助我们解决这一问题。网站日志是由网站所在服务器实时记录网站运行状态的各种数据的文件,通过对网站日志的分析,我们可以知道哪些用户访问了网站,访问了哪些页面;同时可以查看到搜索引擎中的蜘蛛在网站中的爬行情况,利用网站日志还能查看到请求中返回的HTTP协议状态码,长期分析网站日志中的HTTP状态码能够发现对网站不利的细节部分,使网站管理人员更好地管理和优化网站。网站日志存放在哪里?

网站日志一般存放在网站根目录下的“log文件夹”或“logfiles文件夹”,文件夹名称视各虚拟主机提供商不同而不同。网站日志是以txt结尾的文本文件。可以通过FlashFxp、Leapftp等网站上传下载工具将日志下载到本地进行分析。

网站日志案例分析:

1、日志语法:

#Software: Microsoft Internet Information Services 6.0

#Version: 1.0

#Date: 2010-08-11 00:00:17

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes

说明:

#Software:表示软件名称;

#Version:表示版本号;

#Date:表示时间

#Fields:说明如下:

date:表示记录访问日期;

time:访问具体时间;

s-sitename:表示你的虚拟主机的代称或机器码;

s-ip:服务器IP;

cs-method:表示访问方法或发生的请求/提交事件,常见的有两种:一个是GET,就是平常我们打开一个URL访问的动作,另一个是POST,提交表单时的动作;

cs-uri-stem:用户在当前时间访问哪一个文件或具体页面;

cs-uri-query:是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用“-”表示;

s-port:访问的端口

cs-username:访问者名称,如果没有参数则用“-”表示;

c-ip:访问者IP

cs(User-Agent):访问的搜索引擎和蜘蛛名称;

sc-status:Http状态码,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;

sc-substatus:服务端传送到客户端的字节大小;

cs?win32-statu:客户端传送到服务端的字节大小;

sc-bytes:服务端传送数据字节大小;

cs-bytes:用户请求数据字节大小;

http状态码后面几位数据没有固定格式,如果只有一个表示下载数据字节大小;

2、Http状态码:

1**:请求收到,继续处理

2**:操作成功收到,分析、接受

3**:完成此请求必须进一步处理

4**:请求包含一个错误语法或不能完成

5**:服务器执行一个完全有效请求失败

[案例]案例来源:web168.com的其中一个日志代码如下:

2010-08-09 11:44:32 W3SVC622339 222.186.25.142 GET /index.html - 80 - 123.125.66.70 Baiduspider+(+/search/spider.htm) 304 0 0 283

[说明]

这一记录表示百度蜘蛛在2010-08-09 11:44:32这一时间爬过网站根目录下的“index.html“这一页,通过返回的304状态码表示蜘蛛认为网页内容没有更新或没有修改,283表示蜘蛛下载这一页面的字节大小。

Copyright @ 2012-2024华乐美文网 All Rights Reserved. 版权所有