流式数据采集和计算（十五）：基于Spark streaming的批流处理

最新推荐文章于 2024-08-16 09:21:03 发布

置顶 A叶子叶

最新推荐文章于 2024-08-16 09:21:03 发布

阅读量6.2k

点赞数 5

分类专栏： # Spark/Flink流处理文章标签： spark hadoop 大数据

本文链接：https://blog.csdn.net/yezonggang/article/details/90753143

版权

Spark/Flink流处理专栏收录该内容

24 篇文章 31 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Spark Shell进行文件流、Socket流的处理，并将结果保存在HDFS和本地文件。展示了Spark SQL与Spark Streaming的集成，包括通过Java API读取Socket数据并保存到HDFS，以及处理Kafka流的例子，涉及到窗口滑动操作。此外，还探讨了Sparksession和Kafka实用包的版本问题以及有状态转换。

摘要由CSDN通过智能技术生成

-----读取本地打印输出

val text=sc.textFile("hdfs://172.22.241.183:8020/user/spark/yzg_test.txt")

sc.textFile("hdfs://172.22.241.183:8020/user/spark/yzg_test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

--spark-shell实现文件流

import org.apache.spark.streaming._
val ssc = new StreamingContext(sc, Seconds(5))
val lines = ssc.textFileStream("hdfs://172.22.241.183:8020/user/spark/yzg_test.txt")
val Counts = lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _)
Counts.saveAsTextFiles("hdfs://172.22.241.183:8020/user/spark/bendi-test")
ssc.start()
ssc.awaitTermination()

--spa

了解本专栏