一个日志挖掘流系统

最新推荐文章于 2024-04-18 10:47:42 发布

zhoujunbuaa

最新推荐文章于 2024-04-18 10:47:42 发布

阅读量613

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhoujunbuaa/article/details/50288287

版权

大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在某厂工作中这个业务系统的复杂由于数据的庞大造成的。分为实时部分、批量挖掘部分。

由于批量挖掘系统利用hadoop的map reduce挖掘，假设所有输入的数据位（DataA）一起合并到一个对外服务的分布式的key-value数据库（设为DataBase的A表）中，数据量大，挖掘就成长，从用户行为日志产生到最终灌入DataBase中最长有大约48小时的延时。中间结果都保留在hdfs上，和最终对外服务的kv数据库解耦合，在hdfs备份，如果要回滚服务，只需将hdfs的老的备份重新导入到kv数据库中。

实时系统（类storm）则为了弥补批量挖掘的时延影响，但又由于实时日志以及处理的性能要求，只能处理部分数据（设为DataB），DataB比DataA要小，但是都挑影响最重的最关键的数据引入。并且保留最长48小时的记录影响效果，最终导入分布式的key-value数据库（DataBase的B表）。

这样对于一个用户在实时的结果和批量的结果。

前端合并插件：在对外在线提供调用服务时，在线访问（DataBase的A表以及 B表）得到用户的批量、实时结果，做加权合并。并且可以灵活控制影响效果。比如抛弃实时或批量结果，比如实时结果不太好，我们可以将实时的结果降权。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。