bigdatav017——spark.v002
BigDataSpark.v02
yanqi_vip
strove with none, for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor
展开
-
CC00054.spark——|Hadoop&Spark.V01|——|Spark.v01|Spark Streaming|概述|
一、Spark Streaming### --- Spark Streaming~~~ 随着大数据技术的不断发展,人们对于大数据的实时性处理要求也在不断提高,~~~ 传统的 MapReduce 等批处理框架在某些特定领域,~~~ 例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的需求,~~~ 因此诞生了一批如 S3、Sam...原创 2022-04-12 13:28:00 · 66 阅读 · 0 评论 -
CC00055.spark——|Hadoop&Spark.V02|——|Spark.v02|Spark Streaming|DStream数据源|文件数据流|
一、DStream基础数据源### --- DStream基础数据源~~~ 基础数据源包括:文件数据流、socket数据流、RDD队列流;这些数据源主要用于测试。### --- 引入依赖: <dependency> <groupId>org.apache.spark</grou...原创 2022-04-12 13:29:00 · 77 阅读 · 0 评论 -
CC00056.spark——|Hadoop&Spark.V03|——|Spark.v03|Spark Streaming|DStream数据源|
一、socket数据流### --- Socket数据流~~~ Spark Streaming可以通过Socket端口监听并接收数据,然后进行相应处理;~~~ 新开一个命令窗口,启动 nc 程序:nc -lk 9999# yum install nc~~~ # 随后可以在nc窗口中随意输入一些单词,监听窗口会自动获得单词数据流信息,~...原创 2022-04-12 13:29:00 · 84 阅读 · 0 评论 -
CC00057.spark——|Hadoop&Spark.V04|——|Spark.v04|Spark Streaming|DStream数据源|
一、RDD队列流### --- RDD队列流~~~ 调试Spark Streaming应用程序的时候,~~~ 可使用streamingContext.queueStream(queueOfRDD) 创建基于RDD队列的DStream;### --- 源码提取说明~~~ # 源码提取说明:StreamingContext.scala~~~ ...原创 2022-04-12 13:30:00 · 84 阅读 · 0 评论 -
CC00058.spark——|Hadoop&Spark.V05|——|Spark.v05|Spark Streaming|DStream转换操作|
一、DStream转换操作### --- DStream转换操作~~~ DStream上的操作与RDD的类似,~~~ 分为 Transformations(转换)和 OutputOperations(输出)两种,~~~ 此外转换操作中还有一些比较特殊的方法,如:~~~ updateStateByKey、transform 以及各种 Windo...原创 2022-04-12 13:31:00 · 87 阅读 · 0 评论 -
CC00059.spark——|Hadoop&Spark.V06|——|Spark.v06|Spark Streaming|DStream转换操作|
一、无状态转换### --- 无状态转换~~~ 无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上,~~~ 也就是转化DStream 中的每一个 RDD。~~~ 常见的无状态转换包括:map、flatMap、filter、repartition、reduceByKey、groupByKey;~~~ 直接作用在DStream上~~~...原创 2022-04-12 13:31:00 · 150 阅读 · 0 评论 -
CC00060.spark——|Hadoop&Spark.V07|——|Spark.v07|Spark Streaming|DStream转换操作|
一、有状态转换### --- 有状态转换~~~ 有状态的转换主要有两种:窗口操作、状态跟踪操作### --- 窗口操作~~~ Window Operations可以设置窗口大小和滑动窗口间隔来动态的获取当前Streaming的状态。~~~ 基于窗口的操作会在一个比 StreamingContext 的 batchDuration(批次间隔)更长...原创 2022-04-12 13:32:00 · 95 阅读 · 0 评论 -
CC00061.spark——|Hadoop&Spark.V08|——|Spark.v08|Spark Streaming|DStream输出操作|
一、DStream输出操作### --- DStream输出操作~~~ 输出操作定义 DStream 的输出操作。~~~ 与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作,~~~ 那么这些 DStream 就都不会被求值。~~~ 如果 StreamingContext 中没有设定输出操...原创 2022-04-12 13:32:00 · 120 阅读 · 0 评论 -
CC00062.spark——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-12 13:32:00 · 41 阅读 · 0 评论 -
CC00063.spark——|Hadoop&Spark.V01|——|Spark.v01|Spark Streaming|与kafka整合|
一、与Kafka整合### --- 与kafka整合~~~ 官网:http://spark.apache.org/docs/2.4.5/streaming-kafka-integration.html### --- Streaming与kafka整合版本对照~~~ 针对不同的spark、kafka版本,集成处理数据的方式分为两种:~~...原创 2022-04-12 13:33:00 · 51 阅读 · 0 评论 -
CC00064.spark——|Hadoop&Spark.V02|——|Spark.v02|Spark Streaming|与kafka整合|
一、Kafka-08 接口### --- Receiver based Approach~~~ 基于 Receiver 的方式使用 Kafka 旧版消费者高阶API实现。~~~ 对于所有的 Receiver,通过 Kafka 接收的数据被存储于 Spark 的 Executors上,~~~ 底层是写入BlockManager中,默认200ms生成一个b...原创 2022-04-12 13:33:00 · 44 阅读 · 0 评论 -
CC00065.spark——|Hadoop&Spark.V03|——|Spark.v03|Spark Streaming|与kafka整合|
一、Kafka-010 接口### --- kafka-010接口~~~ Spark Streaming与kafka 0.10的整合,和0.8版本的 Direct 方式很像。~~~ Kafka的分区和Spark的RDD分区是一一对应的,可以获取 offsets 和元数据,~~~ API 使用起来没有显著的区别。二、创建maven工程...原创 2022-04-12 13:34:00 · 91 阅读 · 0 评论 -
CC00066.spark——|Hadoop&Spark.V04|——|Spark.v04|Spark Streaming|与kafka整合|
一、Offset 管理### --- Offset管理~~~ Spark Streaming集成Kafka,允许从Kafka中读取一个或者多个 topic 的数据。~~~ 一个Kafka Topic包含一个或多个分区,每个分区中的消息顺序存储,并使用 offset 来标记消息的位置。~~~ 开发者可以在 Spark Streaming 应用中通过 of...原创 2022-04-12 13:34:00 · 52 阅读 · 0 评论 -
CC00067.spark——|Hadoop&Spark.V05|——|Spark.v05|Spark Streaming|与kafka整合|
一、Redis管理的Offset### --- 要想将Offset保存到外部存储中,关键要实现以下几个功能:~~~ Streaming程序启动时,从外部存储获取保存的Offsets(执行一次)~~~ 在foreachRDD中,每个批次数据处理之后,更新外部存储的offsets(多次执行)### --- 在pom.xml文件引入依赖 <...原创 2022-04-12 13:35:00 · 143 阅读 · 0 评论 -
CC00069.spark——|Hadoop&Spark.V01|——|Spark.v01|Spark GraphX|概述|
一、Spark GraphX### --- Spark GraphX概述~~~ GraphX 是 Spark 一个组件,专门用来表示图以及进行图的并行计算。~~~ GraphX 通过重新定义了图的抽象概念来拓展了 RDD: 定向多图,其属性附加到每个顶点和边。~~~ 为了支持图计算,~~~ GraphX 公开了一系列基本运算符(比如:mapV...原创 2022-04-12 13:36:00 · 58 阅读 · 0 评论 -
CC00070.spark——|Hadoop&Spark.V02|——|Spark.v02|Spark GraphX|基础|
一、Spark GraphX 基础### --- SparkGraphX基础~~~ 架构~~~ 存储模式~~~ 核心数据结构~~~ GraphX 与 Spark 其他组件相比相对独立,拥有自己的核心数据结构与算子。二、GraphX 架构### --- GraphX的整体架构可以分为三个部分:~~~ 算...原创 2022-04-12 13:37:00 · 52 阅读 · 0 评论 -
CC00071.spark——|Hadoop&Spark.V03|——|Spark.v03|Spark GraphX|Spark GraphX计算|
一、Spark GraphX计算### --- Spark GraphX计算~~~ 图的定义~~~ 属性操作~~~ 转换操作~~~ 结构操作~~~ 关联操作~~~ 聚合操作~~~ Pregel API二、图的基本操作三、编程实现:SparkGraphX计算### --- 在pom.xml下...原创 2022-04-12 13:38:00 · 122 阅读 · 0 评论 -
CC00072.spark——|Hadoop&Spark.V04|——|Spark.v04|Spark GraphX|Spark GraphX计算|
一、Spark GraphX计算:连通图算法### --- 编程代码实现:给定数据文件,找到存在的连通体package cn.yanqi.graphximport org.apache.spark.graphx.{Graph, GraphLoader}import org.apache.spark.{SparkConf, SparkContext}obje...原创 2022-04-12 13:38:00 · 100 阅读 · 0 评论 -
CC00073.spark——|Hadoop&Spark.V05|——|Spark.v05|Spark GraphX|Spark GraphX计算|
一、Spark GraphX计算:寻找相同的用户,合并信息### --- 寻找相同的用户,合并信息~~~ 假设有五个不同信息可以作为用户标识,分别为:1X、2X、3X、4X、5X;~~~ 每次可以选择使用若干为字段作为标识~~~ 部分标识可能发生变化,如:12 => 13 或 24 => 25### --- 根据以上规则,判断以下标识...原创 2022-04-12 13:39:00 · 58 阅读 · 0 评论 -
CC00074.spark——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-12 13:40:00 · 43 阅读 · 0 评论