Flume+Kafka+SparkStreaming实时统计网站日志--2、项目技术选型和项目架构

最新推荐文章于 2022-01-15 15:49:28 发布

ylqdh

最新推荐文章于 2022-01-15 15:49:28 发布

阅读量357

点赞数 1

分类专栏：项目文章标签： BigData 实时计算

本文链接：https://blog.csdn.net/weixin_43802014/article/details/103031585

版权

项目专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、项目技术选型

基于 Flume+Kafka+SparkStreaming实时统计网站日志–1、项目介绍，选择flume、Kafka、Spark Streaming来完成本项目。项目中数据流向图如下：
在这里插入图片描述
flume_kafka_spark集成数据流向图，红色箭头为数据流向，当数据经过Spark Streaming处理后，存入HBase，然后在web上展示。具体的做法见后续文章。

二、组件使用版本

hadoop2.7.7
spark-2.4.4
hbase-1.3.1
kafka_2.11-0.11.0.2
Flume1.6.0
zookeeper-3.4.11
jdk1.8.0_151
scala 2.11.8
开发工具是 windows10上的 IDEA 2017.2
上述组件的集群安装在Ubuntu16.04.5

三、本项目一些约定

Hadoop集群及各个组件的搭建不涉及，自行查找
项目开发中包名以 project.weblog.ylqdh.bigdata 开头
hadoop集群安装 ubuntu16.04.5-server 虚拟机下，开发在win10上
项目的代码放在github上 ylqdh的Github
项目的服务器ip及对应如下表：
|       IP              | hostname | 服务器在文章中的名称 |
| 172.16.13.150 | redhat-test |    服务器A |
| 172.16.13.151 | szgwnet01 |   服务器B   |
| 172.16.13.152 | szgwnet02 |   服务器C   |
| 172.16.13.153 | szgwnet03 |   服务器D   |

接下来就是实际的flume+Kafka操作了，请看下一篇，3、Flume采集数据到Kafka

ylqdh

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flume+Kafka+SparkStreaming实时统计网站日志--2、项目技术选型和项目架构

一、项目技术选型    基于 Spark实时流统计网站日志–1、项目介绍，选择flume、Kafka、Spark Streaming来完成本项目。数据流向图如下：      flume_kafka_spark集成数据流向图，红色箭头为数据流向，当数据经过Spark Streaming处理后，存入HBase，然后在web上展示。具体的做法见后...
复制链接

扫一扫