自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 使用net cat单数据源多出口(Sink组)案例之常见问题:

单数据源:就是只有一个Source、Channel和多个Sink(负载均衡)单数据多出口分析:

2020-02-25 09:04:58 218

原创 Flume实时读取文件到HDFS案例:

需求:使用Flume监听整个目录的文件:创建配置文件并加入配置:主机名是:cos1000vim flume-dir-hdfs.confa3.sources = r3a3.sinks = k3a3.channels = c3# Describe/configure the sourcea3.sources.r3.type = spooldira3.sources.r3.s...

2020-02-24 00:10:34 224

原创 Flume安装之HelloWord

前言Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume的优点:1.可以和任意存储进程集成。2.输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。3.flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。Flume保证数据的可靠性:...

2020-02-23 21:23:42 132

原创 使用IDEA工具练习SparkSql

前言Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。Spark SQL的特点:1)易整合;2)统一的数据访问方式;3)兼容Hive;4)标准的数据连接。DataFrame的介绍:DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数...

2020-02-22 23:52:37 594

原创 Scala简要笔记整理

IDEA创建Scala项目: 创建一个Maven项目:在maven项目环境下进行编码 新建目录需要编译 目录-->右键-->Mark Dirctory as --->Source Root 作为源码(编译成功 目录颜色会从灰色变色浅绿色) 把项目和Scala关联 项目-->右键-->Add Framework Support --->scala 右...

2020-02-19 23:33:15 290

原创 Spark Streaming的 离散流(DStreams)上的转换、连接操作

离散流(DStreams)的简介:离散流或DStream是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,并把数据分组为小的批次。也可以是通过转换输入流生成的已处理数据流,每个输入批次都形成一个RDD序列,每个RDD代表数据流中的一个时间片内的数据。如下图所示,DStream中的每个RDD都包含一定时间间隔内的数据。一、连接操作流流连接流可以...

2020-02-15 23:51:50 517

原创 使用foreachRDD把数据上传到Mysql数据库

简介dstream.foreachRDD是一个强大的原语,可以将数据发送到外部系统。DStream由输出操作延迟执行,就像RDD由RDD操作延迟执行一样。具体来说,DStream输出操作内部的RDD动作会强制处理接收到的数据。因此,如果您的应用程序没有任何输出操作,或者dstream.foreachRDD()内部没有任何RDD操作,就不会执行任何输出操作。系统将仅接收数据并将其丢弃。在默认情...

2020-02-14 02:09:34 280

原创 输入DStreams和接收器 文件流

前言输入DStream是表示从流源接收的输入数据流的DStream。在快速示例中,lines输入DStream代表从netcat服务器接收的数据流。每个输入DStream(文件流除外)都与一个Receiver对象 (Scala doc, Java doc)关联,该对象从源接收数据并将其存储在Spark的内存中以进行处理。基本来源:可直接在StreamingContext API中获得的来源。示...

2020-02-12 21:02:49 150

原创 Spark Streaming的简单入门

前言Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吐量,容错流处理。Spark Streaming可以从许多来源导入,如Kafka、Flume、Kinesis或TCP套接字等为数据源,输出源可为:HDFS、Databases、Dashboards.Spark Streaming接收实时输入数据流,并将数据分成批次,然后由Spark引擎(SparkE...

2020-02-11 22:34:41 179

原创 Spark Sql练习之疫情简单分析

+------------------+----+---+---+--------+----+--------+------------------+-------------------+---------------+| id_no|name|sex|age|province|city|district| residence| home_domicile|working_company|+------------------+----+---+---

2020-02-10 15:51:06 913

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除