小刘学编程-CSDN博客

原创使用net cat单数据源多出口(Sink组)案例之常见问题：

单数据源：就是只有一个Source、Channel和多个Sink(负载均衡)单数据多出口分析：

2020-02-25 09:04:58 218

原创 Flume实时读取文件到HDFS案例：

需求：使用Flume监听整个目录的文件：创建配置文件并加入配置：主机名是：cos1000vim flume-dir-hdfs.confa3.sources = r3a3.sinks = k3a3.channels = c3# Describe/configure the sourcea3.sources.r3.type = spooldira3.sources.r3.s...

2020-02-24 00:10:34 224

原创 Flume安装之HelloWord

前言Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume的优点:1.可以和任意存储进程集成。2.输入的的数据速率大于写入目的存储的速率，flume会进行缓冲，减小hdfs的压力。3.flume中的事务基于channel，使用了两个事务模型（sender + receiver），确保消息被可靠发送。Flume保证数据的可靠性：...

2020-02-23 21:23:42 132

原创使用IDEA工具练习SparkSql

前言Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。Spark SQL的特点：1）易整合；2）统一的数据访问方式；3）兼容Hive；4）标准的数据连接。DataFrame的介绍：DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数...

2020-02-22 23:52:37 594

原创 Scala简要笔记整理

IDEA创建Scala项目：创建一个Maven项目：在maven项目环境下进行编码新建目录需要编译目录-->右键-->Mark Dirctory as --->Source Root 作为源码(编译成功目录颜色会从灰色变色浅绿色) 把项目和Scala关联项目-->右键-->Add Framework Support --->scala 右...

2020-02-19 23:33:15 290

原创 Spark Streaming的离散流（DStreams）上的转换、连接操作

离散流（DStreams）的简介：离散流或DStream是Spark Streaming提供的基本抽象。它表示连续的数据流，可以是从源接收的输入数据流，并把数据分组为小的批次。也可以是通过转换输入流生成的已处理数据流，每个输入批次都形成一个RDD序列，每个RDD代表数据流中的一个时间片内的数据。如下图所示，DStream中的每个RDD都包含一定时间间隔内的数据。一、连接操作流流连接流可以...

2020-02-15 23:51:50 517

简介dstream.foreachRDD是一个强大的原语，可以将数据发送到外部系统。DStream由输出操作延迟执行，就像RDD由RDD操作延迟执行一样。具体来说，DStream输出操作内部的RDD动作会强制处理接收到的数据。因此，如果您的应用程序没有任何输出操作，或者dstream.foreachRDD()内部没有任何RDD操作，就不会执行任何输出操作。系统将仅接收数据并将其丢弃。在默认情...

2020-02-14 02:09:34 280

原创输入DStreams和接收器文件流

前言输入DStream是表示从流源接收的输入数据流的DStream。在快速示例中，lines输入DStream代表从netcat服务器接收的数据流。每个输入DStream（文件流除外）都与一个Receiver对象（Scala doc， Java doc）关联，该对象从源接收数据并将其存储在Spark的内存中以进行处理。基本来源：可直接在StreamingContext API中获得的来源。示...

2020-02-12 21:02:49 150

原创 Spark Streaming的简单入门

前言Spark Streaming是核心Spark API的扩展，可实现实时数据流的可伸缩，高吐量，容错流处理。Spark Streaming可以从许多来源导入，如Kafka、Flume、Kinesis或TCP套接字等为数据源，输出源可为:HDFS、Databases、Dashboards.Spark Streaming接收实时输入数据流，并将数据分成批次，然后由Spark引擎(SparkE...

2020-02-11 22:34:41 179

原创 Spark Sql练习之疫情简单分析

2020-02-10 15:51:06 913

weixin_45817632的博客