Spark之Spark Streaming处理文件流数据

最新推荐文章于 2024-08-13 08:43:45 发布

路人张的鱼生

最新推荐文章于 2024-08-13 08:43:45 发布

阅读量3.4k

点赞数 4

分类专栏： Spark 日常胡搞文章标签： Spark

本文链接：https://blog.csdn.net/zhangdy12307/article/details/90379543

版权

Spark 同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

日常胡搞

10 篇文章 0 订阅

订阅专栏

Spark之Spark Streaming处理文件流数据

创建相关文件路径

先设置一个用于保存文件的路径，创建的路径地址为 /usr/local/spark/mycode/streaming/logfile

导入相关类

import org.apache.spark.streaming._

创建一个StreamingContext对象

val ssc=new StreamingContext(sc,Seconds(20))

数据流是每20秒进行一次切割

对StreamingContext对对象调用 .textFileStream()方法生成一个文件流类型的InputStream

val lines=ssc.textFileStream("file:///usr/local/spark/mycode/streaming/logfile")

文件目录监控地址为 /usr/local/spark/mycode/streaming/logfile

编写流计算过程

val words=lines.flatMap(_.split(" "))
val wordCounts=words.map(x=>(x,1)).reduceByKey(_+_)
wordCounts.print()

很眼熟的代码，这是spark词频统计的代码

启动流计算

ssc.start()

运行结果如下
在这里插入图片描述
刚开始运行的时候文件路径下并不包含任何文件，在一定时间后创建了一个文本文档，运行结果如图所示，只要文件路径下有文件被创建后，程序就会自动运行并计算结果

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

路人张的鱼生

关注关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark-Streaming流式数据处理

02-25

目前为止，已经讨论了机器学习和批处理模式的数据挖掘。现在审视持续处理流数据，实时检测...下图着重指明了整体架构中的SparkStreaming模块，SparkSQL和SparkMLlib：数据流可以来自股票市场的时序分析，企业交易，各种

spark streaming 的textFileStream读取不了数据原因分析

qq1010234991的博客

02-25

2904

使用textFileStream监测某个文件夹的变化时，出现错误 val fileDStream: DStream[String] = ssc.textFileStream(“in”) 原因：这路径如果hdfs的路径你直接hadoop fs -put 到你的监测路径就可以，如果是本地目录用file:///home/data 你不能移动文件到这个目录，必须用流的形式写入到这个目录形成文...

参与评论您还未登录，请先登录后发表或查看评论

小白学spark日记——SparkStreaming使用textFileStream不能显示数据的问题

qq_42515611的博客

08-25

687

第一个文件中的内容不能显示，第二个文件中的内容可以显示。原因可能在于，第一个文件是文件启动之前才创建的，修改时间在程序运行之后，则SparkStreaming认为这个文件已经访问过了，第二个文件是文件启动才创建的，修改时间跟创建时间都在程序运行之后，则可以显示。 ...

Spark2.x 入门：文件流（DStream）

最新发布

跟着大数据和AI去旅行

08-13

718

Spark支持从兼容HDFS API的文件系统中读取数据，创建数据流。为了能够演示文件流的创建，我们需要首先创建一个日志目录，并在里面放置两个模拟的日志文件。请在Linux系统中打开另一个终端，进入Shell命令提示符状态： cd /home/songxitang/spark/mycode mkdir streaming cd streaming mkdir logfile cd log

Error：spark streaming 的textFileStream读取不了数据，即：在目录中创建文件，但是在streaming程序中是没有读取对应数据

小蚯蚓的博客

09-18

2833

1.现象 SparkStreaming从本地文件夹"..\WorkspaceforMyeclipse\scalaProjectMaven\datas"中读取数据，并进行DStream/RDD处理，但是，在datas中创建文件并且写入文字，程序都无法读取。 2.原因： SparkStreaming需要读取流式的数据，而不能直接从datas文件夹中创建。 3.解决：创建文件 t...

SparkStreaming实战案例

TU_JCN的博客

07-11

726

1、单词计数 pom.xml配置： <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <scala.version>2.11.8</scala.version> <spark.v

sparkStreaming

婲落ヽ红颜谇的博客

07-05

176

Spark Streaming(流处理) 什么是流处理？一般流式计算会与批量计算相比较。在流式计算模型中，输入是持续的，可以认为在时间上是无界的，也就意味着，永远拿不到全量数据去做计算。同时，计算结果是持续输出的，也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高，同时一般是先定义目标计算，然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率，往往尽可能采用增量计算代替全量计算。...

Spark Streaming（二）—— Spark Streaming基本数据源

分享AI工具、AI技术、AI学习经验，感谢大家关注

03-13

2536

Spark Streaming 是一个流式计算引擎，就需要对接外部数据源。每一个输入流DStream和一个Receiver对象相关联，这个Receiver从源中获取数据，并将数据存入内存中用于处理。本文主要介绍三种基本的数据源：文件流、RDD队列流、套接字流。

SparkStreaming如何解决小文件问题

xuehuagongzi000的博客

05-07

1094

使用sparkstreaming时，如果实时计算结果要写入到HDFS，默认情况下会产生非常多的小文件。那么假设，一个batch为10s，每个输出的DStream有32个partition，那么1h产生的文件数将会达到(3600/10)*32=11520个之多。众多小文件带来的结果是有大量的文件元信息，比如文件的location、文件大小、block number等需要NameNode来维护，Nam...

Cris 的 Spark Streaming 笔记

weixin_34306593的博客

01-01

144

一、Spark Streaming 概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方...

textfilestream_Spark从本地文件流式传输到hdfs。textFileStream-问答-阿里云开发者社区-阿里云...

weixin_31060209的博客

12-24

405

我正在尝试将本地目录内容流式传输到HDFS。脚本将修改此本地目录，并且每5秒添加一次内容。我的spark程序将流式传输本地目录内容并将其保存到HDFS。但是，当我开始流式传输时，没有任何事情发生。我检查了日志，但我没有得到提示。让我解释一下这个场景。shell脚本将在本地目录中每5秒移动一个带有一些数据的文件。流上下文的持续时间对象也是5秒。当脚本移动一个新文件时，如果我没有错，则保持原子性。接收...

SparkStreaming基础案例

weixin_30549657的博客

08-08

204

WordCount案例案例一： import org.apache.spark.streaming._ val ssc = new StreamingContext(sc,Seconds(5)); val lines = ssc.textFileStream("file:///home/software/stream"); //val lines = ssc.tex...

Spark内容分享(六)：Spark Streaming 详解

之乎者也·的博客

01-01

1244

如果从先前的 checkpoint 信息点重新开始，是无法完成预先升级的程序代码的，checkpoint 本质上包含序列化后的 Scala/Java/Python 对象，将对象进行反序列化为新的对象，修改的类可能会导致错误，在这种情况下，可以让升级的应用程序使用不同的 checkpoint 目录或者删除以前的检查点目录。例如，如果您使用的是 10 分钟的窗口操作，那么 Spark Streaming 将保留最后 10 分钟的数据，并主动丢弃旧数据。根据 Receiver 的类型，提供了不同的语义。

spark学习-streaming三种读取字节流方式

Chelseady的博客

08-18

1758

一.文件流（DSstream）先创建文件： cd /usr/local/spark/mycode mkdir streaming cd streaming mkdir logfile cd logfile touch log1.txt touch log2.txt 打开一个Linux终端窗口，进入shell命令提示符状态: cd /usr/local/spark/mycode/str...

Spark Streaming 基本输入源

晓晓的天空

03-21

946

Spark Streaming 基本输入源

大数据处理Spark:SparkStreaming--scala

m0_53208849的博客

05-03

6440

第1关QueueStream import java.text.SimpleDateFormat import java.util.Date import org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.collection.mutable ob.