Hadoop离线_网站流量日志数据分析系统_数据采集模块

最新推荐文章于 2024-07-06 02:09:50 发布

_WeiA

最新推荐文章于 2024-07-06 02:09:50 发布

阅读量553

点赞数

分类专栏： Hadoop生态文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/weixin_44449054/article/details/113823953

版权

Hadoop生态专栏收录该内容

50 篇文章 3 订阅

订阅专栏

网站流量日志数据分析系统开发流程

1.需求

在网站 web 流量日志分析这种场景中，对数据采集部分的可靠性、容错能力要求通常不会非常严苛，因此使用通用的 flume 日志采集框架完全可以满足需求。

2.Flume 日志采集系统

2.1 Flume 采集
Flume 采集系统的搭建相对简单：
1、在服务器上部署 agent 节点，修改配置文件
2、启动 agent 节点，将采集到的数据汇聚到指定的 HDFS 目录中针对 nginx 日志生成场景，如果通过 flume（1.6）收集，无论是 Spooling DirectorySource 和 Exec Source 均不能满足动态实时收集的需求，在当前 flume1.7 稳定版本中，提供了一个非常好用的 TaildirSource，使用这个 source，可以监控一个目录，并且使用正则表达式匹配该目录中的文件名进行实时收集。
核心配置如下：

a1.sources = r1
a1.sources.r1.type = TAILDIR
a1.sources.r1.channels = c1
a1.sources.r1.positionFile = /var/log/flume/taildir_position.json
a1.sources.r1.filegroups = f1 f2
a1.sources.r1.filegroups.f1 = /var/log/test1/example.log
a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.*

filegroups: 指定 filegroups，可以有多个，以空格分隔；（TailSource 可以同时监控tail 多个目录中的文件）
positionFile: 配置检查点文件的路径，检查点文件会以 json 格式保存已经 tail 文件的位置，解决了断点不能续传的缺陷。
filegroups.：配置每个 filegroup 的文件绝对路径，文件名可以用正则表达式匹配通过以上配置，就可以监控文件内容的增加和文件的增加。产生和所配置的文件名正则表达式不匹配的文件，则不会被 tail。

3.数据内容样例

日志数据格式：
58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1"304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

字段解析：

1、访客 ip 地址： 58.215.204.118
2、访客用户信息： - -
3、请求时间：[18/Sep/2013:06:51:35 +0000]
4、请求方式：GET
5、请求的 url：/wp-includes/js/jquery/jquery.js?ver=1.10.2
6、请求所用协议：HTTP/1.1
7、响应码：304
8、返回的数据流量：0
9、访客的来源 url：http://blog.fens.me/nodejs-socketio-chat/
10、访客所用浏览器：Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101
Firefox/23.0