分析网站日志可以帮助我们了解用户地域信息,统计用户行为,发现网站缺陷。操作会面临几个问题
- 日志分析工具splunk如何使用?
- 日志格式信息不全,如何配置日志打印出全面信息?
- 有大量爬虫访问,并非真实流量,如何去掉这些流量?
- 如果网站用了CDN加速,反向代理,网关等,日志打印的是这些设备的ip,那么用户的真实ip如何获得呢?
阅读本文能帮您有效解决上述问题
splunk
splunk安装使用
日志分析工具splunk是一款商业软件,但有免费版,免费版每天处理日志限制500M以内。对于简单分析,500M也可以挖掘出很多信息了。本文使用免费版splunk分析Apache离线日志。
先要到splunk官网注册用户,注册用户填写的信息除邮箱外不需要真实,公司瞎填即可。注册完成到下载页面选择Linux 64位版本, 选择命令行下载,会给出一个wget的指令,
复制wgt指令,到Linux上执行,得到压缩包。 (wget指令splunk-8.0.5-xxx的xxx每个人都不同)
[root@localhost splunk]# wget -O splunk-8.0.5-xxx-Linux-x86_64.tgz 'https://www.splunk.com/bin/splunk/DownloadActivityServlet?architecture=x86_64&platform=linux&version=8.0.5&product=splunk&filename=splunk-8.0.5-xxx-Linux-x86_64.tgz&wget=true'
解压压缩包,到bin目录下执行
./splunk start
看见协议条款按q,是否同意协议位置输入y
Do you agree with this license? [y/n]: y
用户名输入 admin
密码输入 adminroot
出现
The Splunk web interface is at http://192.168.56.106:8000
表示启动成功。相比于开源工具(ELK,graylog)确实省心太多了。确保Linux防火墙是关闭状态,然后浏览器输入前面8000地址打开登录。首次会有引导教程指导如何上传文件。日常如果想上传文件,直接点击左上角splunk->enterprise进入主界面,然后选择添加数据,
有多种添加数据的方式,这里选择上载,就是日志文件已经在我电脑里了,像上传附件一样传给splunk。过程全部默认,上载文件需要等一段时间。Apache日志设置“来源类型”时选择web里的access_combined。
下一步,“检查”,“提交”都是默认。显示文件上载成功,点击“开始搜索”按钮,搜索刚才上传的日志数据。