北京日志挖掘的总结

     使用HTLOAD将分布在各个节点的海量原始日志采集及传送到移动大云中的分布式文件系统中。由于日志是实时生成的,所以要采用HTLOAD的模式二来采集日志。

     原始日志的类型分为:新闻、图片、新闻、网页、视频、社区、时评、其它页面、推荐模块。

     在原始日志模型的基础上,利用PDM对各类日志进行转换、合并、清洗,生成五类中间数据。

     五类中间数据:searchrank、view、other、click及我的盘古。

     把五类中间数据作为参数,跑16个指标数据。

     把统计结果导入到inforbright数据仓库中。

     通过调用存储过程来展示统计结果。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值