大数据之路读书笔记(四)

前言

        上一章主要介绍了两类浏览器日志采集方案,里面都提到了日志服务器,现在开始简单介绍一下日志服务器端的清洗和预处理。

页面日志服务器端清洗和预处理

        大部分场合下,解析处理后的日志并不能直接提供给下游使用。基于以下几个原因,在对时效要求较宽松的应用场景下,一般还需要进行相应的离线预处理。

(1)识别流量攻击、网络爬虫和流量作弊(虚假流量),页面日志是互联网分析和大数据应用的基础源数据,在实际应用中,往往存在占一定比例的虚假或恶意流量日志,导致日志相关指标的统计发生偏差或明显缪误。为此,需要对所采集的日志进行合法性校验,依托算法识别非正常的流量并归纳出对应的过滤规则集加以滤除。

(2)数据缺项补正,为了便利日志应用和保证基本的数据统计口径一致,需要对日志中的公用且重要的数据项做取值归一、标准化处理或反向补正。反向补正,即根据新日志对之前的日志中的个别数据项做回补或修订,例如利用用户登录后收集到的日志对用户登录前收集到的日志,做身份信息的回补。

(3)无效数据剔除,因业务变更或配置不当,在采集到的日志中会存在一些无意义、已经失效或者冗余的数据项,这些数据项不仅消耗存储空间和运算能力,而且可能会干扰正常的计算,为此需要定时检查配置并依照配置将此类数据项剔除。

(4)日志隔离分发,基于数据安全或者业务特性考虑,某些日志进入公共数据环境之前需要做隔离处理。

        原始日志经过上述的清洗、修正,并结构化变形处理之后,此时日志已经具备结构化或者半结构化的特征,可以被关系型数据库装载和使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

保持进步,徐徐前行

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值