前言
上一章主要介绍了两类浏览器日志采集方案,里面都提到了日志服务器,现在开始简单介绍一下日志服务器端的清洗和预处理。
页面日志服务器端清洗和预处理
大部分场合下,解析处理后的日志并不能直接提供给下游使用。基于以下几个原因,在对时效要求较宽松的应用场景下,一般还需要进行相应的离线预处理。
(1)识别流量攻击、网络爬虫和流量作弊(虚假流量),页面日志是互联网分析和大数据应用的基础源数据,在实际应用中,往往存在占一定比例的虚假或恶意流量日志,导致日志相关指标的统计发生偏差或明显缪误。为此,需要对所采集的日志进行合法性校验,依托算法识别非正常的流量并归纳出对应的过滤规则集加以滤除。
(2)数据缺项补正,为了便利日志应用和保证基本的数据统计口径一致,需要对日志中的公用且重要的数据项做取值归一、标准化处理或反向补正。反向补正,即根据新日志对之前的日志中的个别数据项做回补或修订,例如利用用户登录后收集到的日志对用户登录前收集到的日志,做身份信息的回补。
(3)无效数据剔除,因业务变更或配置不当,在采集到的日志中会存在一些无意义、已经失效或者冗余的数据项,这些数据项不仅消耗存储空间和运算能力,而且可能会干扰正常的计算,为此需要定时检查配置并依照配置将此类数据项剔除。
(4)日志隔离分发,基于数据安全或者业务特性考虑,某些日志进入公共数据环境之前需要做隔离处理。
原始日志经过上述的清洗、修正,并结构化变形处理之后,此时日志已经具备结构化或者半结构化的特征,可以被关系型数据库装载和使用。