网站日志中访问来源的简单分析

读取和分析网站日志是管理员及SEO工作者的一个重要工作内容,今天花了点时间查看了一下网站日志,特别做一个笔记。

网站日志中访问来源分析其实也不是一件简单的事情,首先得要获取到适合的标准的网站日志。

比如说,如果网站开启了CDN,原始网站日志的访问IP可能是CDN节点的IP,不是访客的真实IP。所以,首先,我们获取好访客的真实IP。这一步本文就略了,以前的文章有写过点小笔记。

需要分离搜索引擎和其它访问来源的IP,如果是CDN的话,可以设置搜索引擎SEO回源来完成这一动作。

wj.JPG

接下来,就是一个实例了。

上图网站日志中我们可以观察到这三种典型的不同访问来源。

1、网站采集器

"120.227.146.29"-113.219.202.212 - - [19/May/2023:20:00:51 +0800] "GET / HTTP/1.1" 200 45693 "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT)" "120.227.146.29"

这是伪装成IE浏览器的的采集爬虫访问,访问记录连接不是具体的URL,自然是在抓取js、css、图片及网页内容了。

2、搜索引擎

"-"-66.249.70.166 - - [19/May/2023:20:01:07 +0800] "GET /2882048.html HTTP/1.1" 200 8327 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.5672.92 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"

这是Google搜索引擎的来访,IP为66.249.70.166,并且回源了,这是CDN的设置结果。

3、用户访问

"220.164.195.122"-113.219.202.162 - - [19/May/2023:20:02:32 +0800] "GET /1315071.html HTTP/1.1" 200 8799 "-" "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3995.1738 Mobile Safari/537.36" "220.164.195.122"

这是一个Android手机的用户访问,真实IP为220.164.195.122,从113.219.202.162节点来访。

那么,有没可能是采集器的伪造UA呢?

有时当然也有可能,多观察几条记录的话,就排除这种可能了,理由跟第一条网站采集器的来访特点相关。

其它来源分析类似。

当然,这仅仅是网站日志中访问来源的简单分析,如果想区分CC攻击访问、国内外访问等更明细的访问分析结果,可能需要一些网站日志分析工具来辅助处理了,毕竟靠人力手工去分析大量的网站日志并形成报告,这很费力费时。

以上就是网站日志中访问来源简单分析的一次小笔记,希望对你有所帮助。

#笔记 #记录
发表评论
签到
投稿
QQ咨询
返回顶部