Spark
Song_MJ
这个作者很懒,什么都没留下…
展开
-
(施工中)大数据Spark Streaming实时项目:日志+Flume+Kafka+Spark Streaming+HBase+ECharts
需求:实时显示网址的点击量编写日志生成脚本,编写Flume配置文件,Flume source为日志文件,Flume sink为Kafka,编写Spark Streaming程序,整合Kafka,清洗数据,把统计结果写入到HBase数据库中,最后把数据展示出来------ 实时日志 -> Flume ------1 编写Python脚本模拟生成用户搜索数据(generate_log....原创 2020-05-07 12:13:35 · 965 阅读 · 1 评论 -
Log4j + Flume + Kafka + Spark Streaming整合
------ log4j -> Flume ------1 编写log4j.properties配置文件(log4j.properties)(Flume source接收的hostname和port在log4j.properties文件中配置)2 添加flume-log4jappender依赖(flume_log4j_依赖)3 编写自动生成日志的java程序(LoggerGenerat...原创 2020-04-09 15:06:32 · 308 阅读 · 0 评论 -
Spark Streaming 整合 Kafka(Direct方式)在本地运行以及在集群中运行
Direct方法与Receiver方法对比及优势1 简化并行度:简化并行度不需要创建多个输入流然后再进行合并。使用Direct方法Spark Streaming创建的RDD分区数与Kafka的分区一样多,这些RDD分区都从Kafka并行读取数据。因此,Kafka分区和RDD分区存在存在一对一的映射关系,这更已于理解和调整2 提升效率:Receiver方法为了实现数据零丢失,需要将数据存储在预写...原创 2020-04-08 18:44:39 · 490 阅读 · 0 评论 -
Spark Streaming 整合 Kafka(Receiver方式)在生产集群运行
Spark Streaming 整合 Kafka(Receiver方式)在生产集群运行步骤概述1 启动zookeeper2 启动Kafa3 创建kafka topic4 通过控制台测试本kafka topic是否能够正常的生产和消费信息5 写Spark Streaming代码6 使用mvn命令打包7 下载spark-streaming-kafka-0-8-assembly_2.11...原创 2020-04-08 12:34:30 · 210 阅读 · 0 评论 -
Spark Streaming 整合 Kafka(Receiver方式)在本地环境运行
步骤概述1 启动zookeeper2 启动Kafa3 创建kafka topic4 通过控制台测试本kafka topic是否能够正常的生产和消费信息5 写Spark Streaming代码6 启动Spark Streaming程序(传入参数zookeeper,group,topic,线程数)(传入参数 hadoop000:2181 test kafka_streaming_topi...原创 2020-04-03 19:02:32 · 169 阅读 · 0 评论 -
Spark Streaming 整合 Flume (Spark Streaming Pull Flume sink 数据) 在集群运行
概述/*SparkStreaming拉取Flume数据flume source -> flume sink(stays buffered) -> Spark Streaming(pull data from sink)pull比push方法好很多,有事务保障,工作中优先使用pull1 写Flume配置文件2 写Spark程序3 启动Flume(Pull方法需要先启动Fl...原创 2020-04-03 16:47:25 · 252 阅读 · 0 评论 -
Spark Streaming 整合 Flume (Spark Streaming Pull Flume sink 数据) 在本地运行
概述SparkStreaming拉取Flume数据flume source -> flume sink(stays buffered) -> Spark Streaming(pull data from sink)pull比push方法好很多,有事务保障,工作中优先使用pull1 写Flume配置文件2 写Spark程序3 启动Flume(Pull方法需要先启动Flum...原创 2020-04-03 12:15:56 · 284 阅读 · 5 评论 -
SparkStreaming 整合 Flume (Flume Push 到 SparkStreaming) 在集群运行
步骤:// 1 编写flume配置文件// 2 编写sparkstreaming程序// 3 打包// 4 启动sparkstreaming程序// 5 启动flume agent// 6 通过nc -lk 44444向flume source发送数据,查看sparkstreaming程序是否正常输出flume配置文件// flume source 是 hadoop000:...原创 2020-03-27 18:46:13 · 195 阅读 · 0 评论 -
SparkStreaming 整合 Flume (Flume Push 到 SparkStreaming) 本地测试
步骤:// 1 编写flume配置文件// 2 编写spark程序,启动sparkstreaming作业// 3 启动flume agent// 4 通过telnet输入数据,观察IDEA控制台的输出flume配置文件simple-agent.sources = netcat-sourcesimple-agent.sinks = avro-sinksimple-agent...原创 2020-03-27 17:20:25 · 233 阅读 · 0 评论 -
用SQL查询SparkStreaming DStream数据
pom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o...原创 2020-03-26 18:56:44 · 324 阅读 · 0 评论 -
SparkStreaming 实现黑名单过滤功能
pom 文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache....原创 2020-03-26 16:31:50 · 795 阅读 · 0 评论 -
SparkStreaming updateStateByKey 历史数据累加
pom文件:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache...原创 2020-03-26 11:41:15 · 253 阅读 · 0 评论 -
SparkStreaming 处理端口数据,输出到MySQL
pom文件:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache....原创 2020-03-26 10:40:21 · 188 阅读 · 0 评论 -
Scala Spark Streaming 读取 HDFS 文件 WordCount
pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h...原创 2020-03-18 17:09:04 · 544 阅读 · 0 评论 -
Scala Spark WordCount 例子
pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="h...原创 2020-03-18 14:29:31 · 248 阅读 · 0 评论 -
Spark Java Api Lambda 表达式 WordCount 例子
注意:Lambda表达式Java8以后的版本才有pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...原创 2020-03-18 11:22:50 · 230 阅读 · 0 评论 -
使用 Spark Java Api 进行 WordCount
pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="...原创 2020-03-18 10:47:46 · 378 阅读 · 0 评论