项目需求
随着互联网的迅速发展,Web系统在满足大量用户访问的同时,几乎每天都在产生大量的用户行为数据(用户在使用系统时通过点击、浏览等行为产生的日志数据)及业务交互数据,通过对这些行为数据进行分析可以获取用户的浏览行为,从而挖掘数据中的潜在价值,更好地、有针对性地进行系统的运营。而随着每天日志数据上百GB的增长,传统的单机处理架构已经不能满足需求,此时就需要使用大数据技术并行计算来解决。
本书从0到1手把手讲解如何使用大数据技术对搜索引擎海量用户搜索日志数据进行用户行为分析。最终实现以下需求:
- 实时统计前10名流量最高的搜索词。
- 统计一天中上网用户最多的时间段。
- 统计用户访问最多的前10个网站域名。
- 分析链接排名与用户点击的相关性。
- 使用报表展示统计结果。
对于实时统计,最终将以可视化的形式使用柱形图在浏览器中实时动态展示并排名,展示效果如图所示。