页面日志的服务器端的清洗和预处理

对于实时要求要宽松的应用场景下,一般的都是进行离线处理,而日志需要清洗和预处理的原因:

  1.  识别流量攻击,网络爬虫和流量作弊(虚假流量)。页面日志是互联网分析和大数据应用的基础源数据,在实际应用中,往往存在占一定比例的虚假或者恶意流量日志,导致分析指标的较大偏差。为此,需要对所采集的日志进行合法性校验,依托算法识别非正常的流量并归纳出对应的过滤规则集加以过滤。
  2.  数据缺项补正。为了遍历后续的日志应用和保证基本的数据统一口径一致,大多数情况下。需要对日志中的一些公用且重要的数据项做取值归一,标准化处理或者反向补正。
  3.  无效数据剔除。 在某些情况下,因业务变更或者配置不当,在采集到的日志中会存在一些无意义,已经失效或者冗余的数据项。为了避免此类异常的发生,需要定时检查配置并依照配置讲此类数据项剔除。
  4.  日志隔离分析。 基于数据安全或者业务特性的考虑,某些日志在进入公共数据环境之前需要做隔离。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值