大数据项目:新闻日志大数据处理系统

Big-Data-Project

Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echarts

项目名称:新闻日志大数据处理系统

项目简介

github开源
源码:https://github.com/changeforeda/Big-Data-Project
目标

1、完成大数据项目的架构设计,安装部署,架构继承与开发、用户可视化交互设计

2、完成实时在线数据分析

3、完成离线数据分析

具体功能

1)捕获用户浏览日志信息

2)实时分析前20名流量最高的新闻话题

3)实时统计当前线上已曝光的新闻话题

4)统计哪个时段用户浏览量最高

5)报表

项目技术点

Hadoop2.x、Zookeeper、Flume、Hive、Hbase

Kafka、Spark2.x、SparkStreaming

MySQL、Hue、J2EE、websoket、Echarts

开发工具

虚拟机: VMware、centos

虚拟机ssh: SecureCRT(在windows上链接多个虚拟机)

修改源码:idea

查看各种数据:notepad++(安装NppFTP插件,修改虚拟机中配置文件,好用的一批)

项目架构

图片来自于卡夫卡公司

集群资源规划

利用VMware虚拟机+centos完成,基本要求笔记本电脑内存在8G以上。
最低要去克隆出3台虚拟机,每台给2G内存。

项目实现步骤

1、第一章:项目需求分析与设计

2、第二章:linux环境准备与设置

3、第三章:Hadoop2.X分布式集群部署

4、第四章:Zookeeper分布式集群部署

5、第五章:hadoop的高可用配置(HA)

6、第六章:hadoop的HA下的高可用HBase部署

7、第七章:Kafka简介和分布式部署

8、第八章:Flume简介和分布式部署

9、第九章:Flume源码修改与HBase+Kafka集成

10、第十章:Flume+HBase+Kafka集成全流程测试

11、第十一章:mysql、Hive安装与集成

12、第十二章:Hive与Hbase集成

13、第十三章:Cloudera HUE大数据可视化分析

14、第十四章:Spark2.X集群安装与spark on yarn部署

15、第十五章:基于IDEA环境下的Spark2.X程序开发

16、第十六章:Spark Streaming实时数据处理

  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
每天都有着大量的用户关注各类新闻,特别是随着各种网络通信技术的发展,网络应用的普及使得每时每刻都有着大量的人们通过网络进行各类新闻的搜索,产生海量的日志数据。过去使用单机的方式通过 MySQL数据库对这些数据进行存储,但是积累下来的用户日志数据量达到了一定的级别,当一台电脑无法存储这么庞大的数据时,就产生了海量数据的存储问题。如果使用网络文件系统对数据进行分开存储,那么就无法对大量的实时和离线数据进行分析处理,处理结果也无法以一种更加直观的方式进行展示。 为了解决海量新闻日志数据的存储问题,在新闻业务中得到实时的用户搜索内容的排行并进行可视化显示,得到公众关注的重点,从而达到针对用户关注的重点进行推送、广告的投放、及时消除不良的用户等目的。本文在对以上需求进行调研后,通过Flume日志收集系统对各个服务器中的日志文件进行读取合并,并将数据划分成离线流数据和实时流数据两条路线。离线数据通过Hadoop集群处理、存储,通过Hive完成离线数据处理和分析,并最终通过Hue实现对用户的可视化展示。实时流数据通过Kafka消息队列临时存储,并通过Spark流处理,最终将结果存放在 MySQL数据库中,通过Java程序获取,最终通过Echarts插件在前端对实时数据进行展示。 本文讲述了系统研究的背景、目的和意义。对系统所使用到的相关技术的原理进行了介绍;对系统进行了总体的需求分析并且按照系统实现的功能划分了相关模块;在进行了需求分析后,对系统进行了具体的硬件平台构建以及各个功能模块设计实现,最终完成对用户搜索日志数据的结构化处理和可视化展示。 最后对课题工作进行了总结,并分析了未来系统中可改进的地方。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值