大数据之路读书笔记（四）

最新推荐文章于 2024-11-08 10:38:56 发布

保持进步，徐徐前行

最新推荐文章于 2024-11-08 10:38:56 发布

阅读量323

点赞数 5

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51646756/article/details/142723842

版权

前言

上一章主要介绍了两类浏览器日志采集方案，里面都提到了日志服务器，现在开始简单介绍一下日志服务器端的清洗和预处理。

页面日志服务器端清洗和预处理

大部分场合下，解析处理后的日志并不能直接提供给下游使用。基于以下几个原因，在对时效要求较宽松的应用场景下，一般还需要进行相应的离线预处理。

（1）识别流量攻击、网络爬虫和流量作弊（虚假流量），页面日志是互联网分析和大数据应用的基础源数据，在实际应用中，往往存在占一定比例的虚假或恶意流量日志，导致日志相关指标的统计发生偏差或明显缪误。为此，需要对所采集的日志进行合法性校验，依托算法识别非正常的流量并归纳出对应的过滤规则集加以滤除。

（2）数据缺项补正，为了便利日志应用和保证基本的数据统计口径一致，需要对日志中的公用且重要的数据项做取值归一、标准化处理或反向补正。反向补正，即根据新日志对之前的日志中的个别数据项做回补或修订，例如利用用户登录后收集到的日志对用户登录前收集到的日志，做身份信息的回补。

（3）无效数据剔除，因业务变更或配置不当，在采集到的日志中会存在一些无意义、已经失效或者冗余的数据项，这些数据项不仅消耗存储空间和运算能力，而且可能会干扰正常的计算，为此需要定时检查配置并依照配置将此类数据项剔除。

（4）日志隔离分发，基于数据安全或者业务特性考虑，某些日志进入公共数据环境之前需要做隔离处理。

原始日志经过上述的清洗、修正，并结构化变形处理之后，此时日志已经具备结构化或者半结构化的特征，可以被关系型数据库装载和使用。

保持进步，徐徐前行

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

保持进步，徐徐前行 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。