bigdatav016——spark.v001
BigDataSpark.v01
yanqi_vip
strove with none, for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor
展开
-
CC00001.spark——|Hadoop&Spark.V01|——|Spark.v01|sparkcore|课程大纲|
### --- 课程大纲~~~ Spark Core -- 离线~~~ Spark SQL -- 离线、交互~~~ Spark Streaming -- 实时~~~ Spark GraphX -- 图处理~~~ Spark原理~~~ MapReduce、Spark、Flink(实时) => 3代计算引擎;昨天、今天、未来~~...原创 2022-04-11 20:14:00 · 91 阅读 · 0 评论 -
CC00002.spark——|Hadoop&Spark.V02|——|Spark.v02|sparkcore|概述|
一、Spark概述### --- 什么是Spark~~~ Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算引擎~~~ 2009年诞生于美国加州大学伯克利分校AMP 实验室~~~ 2010年通过BSD许可协议开源发布~~~ 2013年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.0~~~ ...原创 2022-04-11 20:15:00 · 216 阅读 · 0 评论 -
CC00003.spark——|Hadoop&Spark.V03|——|Spark.v03|sparkcore|Spark集群部署|
一、Spark官方地址### --- Spark安装~~~ 官网地址:http://spark.apache.org/~~~ 文档地址:http://spark.apache.org/docs/latest/~~~ 下载地址:http://spark.apache.org/downloads.html~~~ 下载Spark安装包~~~ ...原创 2022-04-11 20:15:00 · 96 阅读 · 0 评论 -
CC00004.spark——|Hadoop&Spark.V04|——|Spark.v04|sparkcore|Spark本地模式|
一、本地模式### --- 本地模式~~~ 本地模式部署在单机,主要用于测试或实验;~~~ 最简单的运行模式,所有进程都运行在一台机器的 JVM 中;~~~ 本地模式用单机的多个线程来模拟Spark分布式计算,~~~ 通常用来验证开发出来的应用程序逻辑上有没有问题;~~~ 这种模式非常简单,只需要把Spark的安装包解压后,改一些常...原创 2022-04-11 20:15:00 · 77 阅读 · 0 评论 -
CC00005.spark——|Hadoop&Spark.V05|——|Spark.v05|sparkcore|spark伪分布式模式|
一、伪分布式### --- 伪分布式~~~ # 伪分布式模式:在一台机器中模拟集群运行,相关的进程在同一台机器上;~~~ # 备注:不用启动集群资源管理服务;~~~ local-cluster[N,cores,memory]~~~ N模拟集群的 Slave(或worker)节点个数~~~ cores模拟集群中各个Slave节点上的内...原创 2022-04-11 20:16:00 · 183 阅读 · 1 评论 -
CC00006.spark——|Hadoop&Spark.V06|——|Spark.v06|sparkcore|Spark-Standalone集群模式|
一、集群模式--Standalone模式### --- 集群模式--Standalone模式~~~ 参考:http://spark.apache.org/docs/latest/spark-standalone.html~~~ 分布式部署才能真正体现分布式计算的价值~~~ 与单机运行的模式不同,这里必须先启动Spark的Master和Worker守护进...原创 2022-04-11 20:17:00 · 69 阅读 · 0 评论 -
CC00007.spark——|Hadoop&Spark.V07|——|Spark.v07|sparkcore|Spark-Standalone集群模式|
一、运行模式(cluster / client)### --- 运行模式(cluster / client)~~~ 最大的区别:Driver运行在哪里;client是缺省的模式,能看见返回结果,适合调试;cluster与此相反;~~~ Client模式:(缺省)Driver运行在提交任务的Client此时在Client模式下看见应用的返回结果适合交互调试~~~...原创 2022-04-12 12:57:00 · 65 阅读 · 0 评论 -
CC00008.spark——|Hadoop&Spark.V08|——|Spark.v08|sparkcore|Spark-Standalone集群模式|
一、History Server配置### --- History Server~~~ # 配置服务的history server:spark-defaults.conf\[root@hadoop02 ~]# vim $SPARK_HOME/conf/spark-defaults.conf# history serverspark.master ...原创 2022-04-12 12:57:00 · 79 阅读 · 0 评论 -
CC00009.spark——|Hadoop&Spark.V09|——|Spark.v09|sparkcore|Spark-Standalone集群模式|
一、高可用配置### --- spark standalone集群配置说明~~~ Spark Standalone集群是 Master-Slaves架构的集群模式,~~~ 和大部分的Master-Slaves结构集群一样,存着Master单点故障的问题。### --- 如何解决这个问题,Spark提供了两种方案:~~~ # 基于zookeepe...原创 2022-04-12 12:58:00 · 118 阅读 · 0 评论 -
CC00010.spark——|Hadoop&Spark.V10|——|Spark.v10|sparkcore|集群模式&yarn模式|
一、集群模式--Yarn模式### --- 集群模式-Yarn模式~~~ 参考:http://spark.apache.org/docs/latest/running-on-yarn.html~~~ 需要启动的服务:hdfs服务、yarn服务~~~ 需要关闭 Standalone 对应的服务(即集群中的Master、Worker进程),一山不容二虎!...原创 2022-04-12 12:59:00 · 265 阅读 · 0 评论 -
CC00011.spark——|Hadoop&Spark.V11|——|Spark.v11|sparkcore|开发环境搭建IDEA|
一、创建工程### --- 创建一个maven工程:~~~ Create New Project——>Maven——>Next——>Name:SparkBigData——>Finish——>END### --- 安装scala插件;能读写HDFS文件### --- 导入依赖插件,写入pom.xml文件<?x...原创 2022-04-12 12:59:00 · 158 阅读 · 0 评论 -
CC00013.spark——|Hadoop&Spark.V01|——|Spark.v01|sparkcore|RDD编程&什么是RDD&RDD特点|
一、RDD编程### --- 什么是RDD~~~ RDD是 Spark 的基石,是实现 Spark 数据处理的核心抽象。~~~ RDD 是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。~~~ RDD(Resilient Distributed Dataset)是 Spark 中的核心概念,~~~ 它是一个容错、可以并行执行...原创 2022-04-12 13:01:00 · 75 阅读 · 0 评论 -
CC00014.spark——|Hadoop&Spark.V02|——|Spark.v02|sparkcore|RDD编程&RDD编程模型|
一、RDD编程模型### --- RDD编程模型~~~ RDD表示数据对象~~~ 通过对象上的方法调用来对RDD进行转换~~~ 最终显示结果 或 将结果输出到外部数据源~~~ RDD转换算子称为Transformation是Lazy的(延迟执行)~~~ 只有遇到Action算子,才会执行RDD的转换操作### -...原创 2022-04-12 13:02:00 · 126 阅读 · 0 评论 -
CC00015.spark——|Hadoop&Spark.V03|——|Spark.v03|sparkcore|RDD编程&sparkcontext创建|
一、设置spark-standalone集群非HA模式### --- 修改配置文件[root@hadoop02 ~]# vim $SPARK_HOME/conf/spark-env.shexport JAVA_HOME=/opt/yanqi/servers/jdk1.8.0_231export HADOOP_HOME=/opt/yanqi/servers/hadoop-2.9...原创 2022-04-12 13:03:00 · 107 阅读 · 0 评论 -
CC00016.spark——|Hadoop&Spark.V04|——|Spark.v04|sparkcore|RDD编程&Transformation|
一、Transformation【重要】### --- Transformation:RDD的操作算子分为两类:~~~ Transformation:用来对RDD进行转化,这个操作时延迟执行的(或者说是Lazy 的);~~~ Action:用来触发RDD的计算;得到相关计算结果 或者 将结果保存的外部系统中;~~~ Transformation:返回一...原创 2022-04-12 13:03:00 · 81 阅读 · 0 评论 -
CC00017.spark——|Hadoop&Spark.V05|——|Spark.v05|sparkcore|RDD编程&Action算子|
一、Action### --- Action 用来触发RDD的计算,得到相关计算结果;~~~ Action触发Job。一个Spark程序(Driver程序)包含了多少 Action 算子,那么就有多少Job;~~~ 典型的Action算子: collect / count~~~ collect() => sc.runJob() => ......原创 2022-04-12 13:04:00 · 64 阅读 · 0 评论 -
CC00018.spark——|Hadoop&Spark.V06|——|Spark.v06|sparkcore|RDD编程&Key-Value RDD操作|
一、Key-Value RDD操作### --- Key_Value RDD操作~~~ RDD整体上分为 Value 类型和 Key-Value 类型。~~~ 前面介绍的是 Value 类型的RDD的操作,~~~ 实际使用更多的是 key-value 类型的RDD,也称为 PairRDD。~~~ Value 类型RDD的操作基本集中在 RDD...原创 2022-04-12 13:05:00 · 152 阅读 · 0 评论 -
CC00019.spark——|Hadoop&Spark.V07|——|Spark.v07|sparkcore|RDD编程&输入输出|
一、输入与输出### --- 文件输入与输出:文本文件~~~ 数据读取:textFile(String)。可指定单个文件,支持通配符。~~~ 这样对于大量的小文件读取效率并不高,~~~ 应该使用 wholeTextFilesdef wholeTextFiles(path: String, minPartitions: Int = defaultMinP...原创 2022-04-12 13:06:00 · 66 阅读 · 0 评论 -
CC00020.spark——|Hadoop&Spark.V08|——|Spark.v08|sparkcore|算子综合案例&wordcount-scala|
一、算子综合应用案例:wordCount-scala### --- WordCount - scalapackage cn.yanqi.sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWordCount { def...原创 2022-04-12 13:06:00 · 245 阅读 · 0 评论 -
CC00021.spark——|Hadoop&Spark.V09|——|Spark.v09|sparkcore|算子综合案例&wordcount-Java|
一、算子综合案例wordcount-java### --- WordCount - java~~~ Spark提供了:Scala、Java、Python、R语言的API;对 Scala 和 Java 语言的支持最好;### --- 源码地址说明~~~ 地址:https://spark.apache.org/docs/latest/rdd-programm...原创 2022-04-12 13:06:00 · 233 阅读 · 0 评论 -
CC00022.spark——|Hadoop&Spark.V10|——|Spark.v10|sparkcore|算子综合案例&计算圆周率|
一、算子综合案例:计算圆周率:计算圆周率说明二、编程代码实现### --- 编程代码实现package cn.yanqi.sparkcoreimport org.apache.spark.{SparkConf, SparkContext}import scala.math.randomobject SparkPi { def main(args: Ar...原创 2022-04-12 13:07:00 · 216 阅读 · 0 评论 -
CC00023.spark——|Hadoop&Spark.V11|——|Spark.v11|sparkcore|算子综合案例&广告数据统计|
一、算子综合案例:广告数据统计### --- 广告数据统计~~~ 数据格式:timestamp province city userid adid 时间点 省份 城市 用户 广告### --- 广告数据统计案例需求~~~ 需求: 1、统计每一个省份点击TOP3的广告ID 2、统计每一个省份每一个小时的TOP3广告ID二、广告数据统计说明###...原创 2022-04-12 13:07:00 · 227 阅读 · 0 评论 -
CC00024.spark——|Hadoop&Spark.V12|——|Spark.v12|sparkcore|算子综合案例&找共同好友|
一、算子综合案例&找共同好友### --- 找共同好友~~~ 第一列表示用户,后面的表示该用户的好友~~~ # 原始数据:100, 200 300 400 500 600200, 100 300 400300, 100 200 400 500400, 100 200 300500, 100 300600, 100### --- 案例需求...原创 2022-04-12 13:08:00 · 160 阅读 · 0 评论 -
CC00025.spark——|Hadoop&Spark.V13|——|Spark.v12|sparkcore|算子综合案例&wordcount-super|
一、算子综合案例:Super WordCount### --- Super WordCount~~~ 要求:将单词全部转换为小写,去除标点符号(难),去除停用词(难);~~~ 最后按照count 值降序保存到文件,~~~ 同时将全部结果保存到MySQL(难);标点符号和停用词可以自定义。~~~ 停用词:语言中包含很多功能词。与其他词相比,功能...原创 2022-04-12 13:09:00 · 173 阅读 · 0 评论 -
CC00026.spark——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-12 13:10:00 · 65 阅读 · 0 评论 -
CC00027.spark——|Hadoop&Spark.V01|——|Spark.v01|sparkcore|RDD编程高阶&序列化|
一、RDD编程高阶### --- Spark原理:序列化~~~ 在实际开发中会自定义一些对RDD的操作,此时需要注意的是:~~~ 初始化工作是在Driver端进行的~~~ 实际运行程序是在Executor端进行的~~~ 这就涉及到了进程通信,是需要序列化的。二、RDD序列化代码实现### --- 可以简单的认为SparkConte...原创 2022-04-12 13:10:00 · 94 阅读 · 0 评论 -
CC00028.spark——|Hadoop&Spark.V02|——|Spark.v02|sparkcore|RDD依赖关系&再谈wordcount|
一、RDD依赖关系### --- RDD依赖关系~~~ RDD只支持粗粒度转换,即在大量记录上执行的单个操作。~~~ 将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。~~~ RDD的Lineage会记录RDD的元数据信息和转换行为,~~~ 当该RDD的部分分区数据丢失时,可根据这些信息来重新运算和恢复丢失的数据分区。...原创 2022-04-12 13:10:00 · 106 阅读 · 0 评论 -
CC00029.spark——|Hadoop&Spark.V03|——|Spark.v03|sparkcore|RDD编程高阶&RDD持久化&缓存|
一、RDD持久化/缓存### --- 涉及到的算子:persist、cache、unpersist;都是 Transformation~~~ 缓存是将计算结果写入不同的介质,~~~ 用户定义可定义存储级别(存储级别定义了缓存存储的介质,目前支持内存、堆外内存、磁盘);~~~ 通过缓存,Spark避免了RDD上的重复计算,能够极大地提升计算速度;~~~...原创 2022-04-12 13:11:00 · 82 阅读 · 0 评论 -
CC00030.spark——|Hadoop&Spark.V04|——|Spark.v04|sparkcore|RDD编程高阶|
一、RDD容错机制Checkpoint### --- 涉及到的算子:checkpoint;也是 Transformation~~~ Spark中对于数据的保存除了持久化操作之外,还提供了检查点的机制;### --- 检查点本质是通过将RDD写入高可靠的磁盘,主要目的是为了容错。检查点通过将~~~ 数据写入到HDFS文件系统实现了RDD的检查点功能。~~...原创 2022-04-12 13:11:00 · 75 阅读 · 0 评论 -
CC00031.spark——|Hadoop&Spark.V05|——|Spark.v05|sparkcore|RDD编程高阶&RDD分区数|
一、RDD的分区### --- RDD分区~~~ spark.default.parallelism:(默认的并发数)= 2~~~ 当配置文件spark-default.conf中没有显示的配置,则按照如下规则取值:二、RDD分区示例### --- 本地模式~~~ # spark-shell --master local[N] spa...原创 2022-04-12 13:12:00 · 88 阅读 · 0 评论 -
CC00032.spark——|Hadoop&Spark.V06|——|Spark.v06|sparkcore|RDD编程高阶&RDD分区器|
一、RDD分区器### --- 以下RDD分别是否有分区器,是什么类型的分区器scala> val rdd1 = sc.textFile("/wcinput/wc.txt")rdd1: org.apache.spark.rdd.RDD[String] = /wcinput/wc.txt MapPartitionsRDD[34] at textFile at <con...原创 2022-04-12 13:13:00 · 158 阅读 · 0 评论 -
CC00033.spark——|Hadoop&Spark.V07|——|Spark.v07|sparkcore|RDD编程高阶&广播变量|
一、广播变量### --- 广播变量~~~ 有时候需要在多个任务之间共享变量,或者在任务(Task)和Driver Program之间共享变量。~~~ 为了满足这种需求,Spark提供了两种类型的变量:~~~ 广播变量(broadcast variables)~~~ 累加器(accumulators)~~~ 广播变量、累加器主要作用...原创 2022-04-12 13:13:00 · 154 阅读 · 0 评论 -
CC00034.spark——|Hadoop&Spark.V08|——|Spark.v08|sparkcore|RDD编程高阶&RDD累加器|
一、RDD累加器### --- 累加器~~~ 累加器的作用:可以实现一个变量在不同的 Executor 端能保持状态的累加;~~~ 累计器在 Driver 端定义,读取;在 Executor 中完成累加;~~~ 累加器也是 lazy 的,需要 Action 触发;Action触发一次,执行一次,触发多次,执行多次;~~~ 累加器一个比较经典的...原创 2022-04-12 13:13:00 · 240 阅读 · 0 评论 -
CC00035.spark——|Hadoop&Spark.V09|——|Spark.v09|sparkcore|RDD编程高阶&TopN优化|
一、TopN编程代码### --- TopN编程代码优化package cn.yanqi.sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.immutableobject TopN { ...原创 2022-04-12 13:14:00 · 243 阅读 · 0 评论 -
CC00036.spark——|Hadoop&Spark.V10|——|Spark.v10|sparkcore|RDD编程高阶&spark原理初探|
一、Spark原理初探:Standalone模式作业提交### --- Standalone 模式下有四个重要组成部分,分别是:~~~ Driver:用户编写的 Spark 应用程序就运行在 Driver 上,由Driver 进程执行~~~ Master:主要负责资源的调度和分配,并进行集群的监控等职责~~~ Worker:Worker 运行在集群中的...原创 2022-04-12 13:14:00 · 63 阅读 · 0 评论 -
CC00037.spark——|Hadoop&Spark.V11|——|Spark.v11|sparkcore|RDD编程高阶&spark原理初探|
一、Shuffle原理### --- shuffle原理~~~ Shuffle的本意是洗牌,目的是为了把牌弄乱。~~~ Spark、Hadoop中的shuffle可不是为了把数据弄乱,~~~ 而是为了将随机排列的数据转换成具有一定规则的数据。~~~ Shuffle是MapReduce计算框架中的一个特殊的阶段,介于Map 和 Reduce 之...原创 2022-04-12 13:15:00 · 82 阅读 · 0 评论 -
CC00038.spark——|Hadoop&Spark.V12|——|Spark.v12|sparkcore|RDD编程高阶&spark原理初探|
一、RDD编程优化### --- RDD复用~~~ 避免创建重复的RDD。在开发过程中要注意:~~~ 对于同一份数据,只应该创建一个RDD,不要创建多个RDD来代表同一份数据。### --- RDD缓存/持久化~~~ 当多次对同一个RDD执行算子操作时,每一次都会对这个RDD以之前的父RDD重新计算一次,~~~ 这种情况是必须要避免的...原创 2022-04-12 13:16:00 · 71 阅读 · 0 评论 -
CC00039.spark——|BigDataEnd|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-12 13:16:00 · 69 阅读 · 0 评论 -
CC00040.spark——|Hadoop&Spark.V01|——|Spark.v01|spark sql|概述特点|
一、SparkSQL### --- Spark SQL概述~~~ Hive的诞生,主要是因为开发MapReduce程序对 Java 要求比较高,~~~ 为了让他们能够操作HDFS上的数据,推出了Hive。~~~ Hive与RDBMS的SQL模型比较类似,容易掌握。~~~ Hive的主要缺陷在于它的底层是基于MapReduce的,执行比较慢。...原创 2022-04-12 13:17:00 · 147 阅读 · 0 评论 -
CC00041.spark——|Hadoop&Spark.V02|——|Spark.v02|spark sql|sparksession|
一、Spark SQL编程### --- sparkseeion官方地址~~~ 官方文档:http://spark.apache.org/docs/latest/sql-getting-started.html### --- SparkSession~~~ 在 Spark 2.0 之前:~~~ SQ...原创 2022-04-12 13:18:00 · 195 阅读 · 0 评论
分享