Hadoop大数据开发__Spark Streaming集成Kafka集群实时读取数据（Spark on YARN）

最新推荐文章于 2022-12-12 01:23:28 发布

姚华军

最新推荐文章于 2022-12-12 01:23:28 发布

阅读量319

点赞数

分类专栏：大数据文章标签：大数据 spark hadoop spark streaming kafka

本文链接：https://blog.csdn.net/yhj_911/article/details/125440716

版权

大数据专栏收录该内容

16 篇文章 2 订阅

订阅专栏

1、准备需要的运行包

kafka-clients-3.2.0.jar
spark-streaming-kafka-0-10_2.12-3.0.0.jar
spark-streaming-kafka-0-10-assembly_2.12-3.0.0.jar

2、测试运行

/home/hadoop/app/spark
#把spark自带的spark-examples_2.12-3.3.0.jar放到YARN上运行
bin/spark-submit --class org.apache.spark.examples.streaming.JavaDirectKafkaWordCount --master yarn --jars examples/jars/kafka-clients-3.2.0.jar,examples/jars/spark-streaming-kafka-0-10_2.12-3.0.0.jar,examples/jars/spark-streaming-kafka-0-10-assembly_2.12-3.0.0.jar examples/jars/spark-examples_2.12-3.3.0.jar hadoop01:9092,hadoop02:9092,hadoop03:9092 1111 mydemo2
#调用kafka生产者，产生数据
/home/hadoop/app/kafka
kafka-console-producer.sh --broker-list hadoop01:9092 --topic mydemo2
#上面的JavaDirectKafkaWordCount是从kafka的topic中取出数据，显示到控制台上