zl202111-CSDN博客

原创 3.5 RDD持久化机制

从上述代码可以看出，cache()方法调用了无参的persist()方法，两者的默认存储级别都为MEMORY_ONLY，但cache()方法不可更改存储级别，而persist()方法可以通过参数自定义存储级别。Spark中重要的功能之一是可以将某个RDD中的数据保存到内存或者磁盘中，每次需要对这个RDD进行算子操作时，可以直接从内存或磁盘中取出该RDD的持久化数据，而不需要从头计算才能得到这个RDD。如果内存不够，就将未缓存的分区存储在磁盘上，并在需要这些分区时从磁盘读取。

2023-06-14 14:02:30 1018

原创 3.4 理解RDD依赖

一个父RDD的一个分区不可能对应一个子RDD的多个分区。对一个RDD进行reduceByKey()操作，RDD中相同key的所有记录将进行聚合，而key相同的所有记录可能不在同一个分区中，甚至不在同一个节点上，但是该操作必须将这些记录聚集到一起进行计算才能保证结果准确，因此reduceByKey()操作会产生Shuffle，也会产生宽依赖。在Spark中，对RDD的每一次转化操作都会生成一个新的RDD，由于RDD的懒加载特性，新的RDD会依赖原有RDD，因此RDD之间存在类似流水线的前后依赖关系。

2023-06-14 14:01:58 547

原创 3.2 掌握RDD算子

例如，rdd1的元素以(k,v)表示，rdd2的元素以(k, w)表示，进行左外连接时将以rdd1为基准，rdd2中的k与rdd1的k相同的元素将连接到一起，生成的结果形式为(k, (v, Some(w))。rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反，其与数据库的右外连接类似，以右边的RDD为基准（例如rdd1.rightOuterJoin(rdd2)，以rdd2为基准），右边RDD的记录一定会存在。转换算子负责对RDD中的数据进行计算并转换为新的RDD。

2023-06-14 14:00:22 1158

原创 3.3 掌握RDD分区

在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。textFile()方法通常用于读取HDFS中的文本文件，使用该方法创建RDD时，Spark会对文件进行分片操作（类似于MapReduce的分片，实际上调用的是MapReduce的分片接口），分片操作完成后，每个分区将存储一个分片的数据，因此分区的数量等于分片的数量。RDD各个分区中的数据可以并行计算，因此分区的数量决定了并行计算的粒度。

2023-06-14 13:59:35 1198

原创 3.1 掌握RDD的创建

执行命令：spark-submit --master spark://master:7077 --deploy-mode cluster --class net.huawei.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/output：统计结果的输出路径。

2023-06-14 13:57:49 1049

原创 2.4 IDEA开发词频统计项目

执行命令：spark-submit --master spark://master:7077 --deploy-mode cluster --class net.huawei.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/output：统计结果的输出路径。

2023-06-11 20:21:42 1576

原创 2.2 搭建Spark开发环境

一、Spark开发环境准备工作由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。安装Spark集群前，需要安装Hadoop环境软件版本Linux系统 CentOS7.9版本Hadoop 3.3.4版本JDK 1.8版本 (jdk8u231)Spark 3.3.2版本二、了解Spark的部署模式（一）Standalone模式。

2023-06-11 20:20:33 1724

原创 2.3 Spark运行架构与原理

Spark有多种运行模式，可以运行在一台机器上，称为本地（单机）模式，也可以以YARN或Mesos作为底层资源调度系统以分布式的方式在集群中运行，称为Spark On YARN模式，还可以使用Spark自带的资源调度系统，称为Spark Standalone模式。Driver进程向Cluster Manager申请资源，Cluster Manager接收到Application的注册请求后，会使用自己的资源调度算法，在Spark集群的Worker节点上，通知Worker为应用启动多个Executor。

2023-06-11 20:19:22 1450 1

原创 2.1 初识Spark

淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等，将Spark运用于淘宝的推荐相关算法上，同时还利用GraphX解决了许多生产问题，包括以下计算场景：基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。所以说，Spark是一个更加快速、高效的大数据计算平台。Spark提供的分布式图处理框架，拥有对图计算和图挖掘算法的API接口及丰富的功能和运算符，便于对分布式图处理的需求，能在海量数据上运行复杂的图算法。

2023-06-11 20:17:24 565

原创 1.4 掌握Scala运算符

例如：3 + 2 * 5，我们期望获得的是13，但是根据Scala特点，Scala中所有运算符其实就是方法，那么按照这种说法，表达式应该等同于(3).+(2) 得到5，(5).*(5) 得到25，与我们的预期不符！靠的是运算符优先级。如果运算符以=结尾，且运算符并非比较运算符 =、==或=，则运算符优先级等同于=，即优先级最低，例如+=、-=等；由于Scala并没有真正的运算符，运算符其实是方法的一种形式，所以此处运算符的优先级，其实就是指方法的优先级。Scala中，如果是基本数据类型，==与!

2023-06-11 20:15:30 1681

原创 1.3 使用Scala集成开发环境

在前面，我们都是利用Scala Shell交互式环境来学习Scala基础知识，虽然交互式有快捷的优点，但是要写比较完整的程序，编辑就显得极为不便，为了提高开发效率，我们要学会使用Scala的集成开发环境 - IntelliJ IDEA。在包net.huawei.day01上右击，选择New→Scala Class，选择创建Object，创建一个Scala对象TestHelloWorld，在里面创建主方法，实例化HelloScala，然后调用其speak()方法。Scala插件的安装有两种方式：在线与离线。

2023-06-11 20:14:59 1328

原创 1.2 Scala变量与数据类型

Unit是一个不包含任何信息的值类型，和Java语言中的void等同，用作不返回任何结果的方法的结果类型。九个基本类型提供的方法比较有限，为了拓展其功能，Scala提供了对应九个富包装器，其实也是九个类，这九个类的直接量在需要时可以自动被转换为其对应的富包装类来调用富包装类提供的额外方法。所有非值类型都被定义为引用类型。Null是所有引用类型（AnyRef）的子类，所以Null可以赋值给所有的引用类型，但不能赋值给值类型，这个和Java的语义是相同的。在Scala中，所有的值都有一个类型，包括数值和函数。

2023-06-11 20:12:23 1351

原创 3.1 掌握RDD的创建

将数据集（hello, world, scala, spark, love, spark, happy）存储在三个节点上，节点一存储（hello, world），节点二存储（scala, spark, love），节点三存储（spark, happy），这样对三个节点的数据可以并行计算，并且三个节点的数据共同组成了一个RDD。在编程时，可以把RDD看作是一个数据操作的基本单位，而不必关心数据的分布式特性，Spark会自动将RDD的数据分发到集群的各个节点。不同的是，数据的来源路径不同。

2023-06-11 20:10:24 1711

原创大二下期学期总结

学期总结

2023-06-11 19:49:51 81

原创 Spark SQL概述、数据帧与数据集

定义一个样例类Student，用于存放数据描述信息（Schema）基于样例类创建对象很简单，不需要new关键字，只需要传入相应参数即可创建对象。

2023-06-06 09:06:26 258

原创企业级开发1.6 JdbcTemplate操作

JdbcTemplate操作

2023-05-31 08:43:30 384

原创 JAVA企业级开发 1.5 初探Spring AOP

Spring AOP

2023-05-31 08:28:33 268

原创本地spark报错：java.lang.UnsatisfiedLinkError:

Spark学习中，运行。

2023-03-14 20:25:49 300 1

原创数据结构（Java编写）：编辑顺序列表

写一个顺序表类`Seqlist`,属性两个（int data[100] ， int len）,构造方法（），`creatlist()`(产生10个元素，分别是1,4,9,16，...,100 )，`outputlist()`(输出顺序表)，`locate()`(查找值为x的位置，返回其下标),`insert()`(在第i个位置插入值x)，`delete()`(删除第i个位置的元素)，然后测试以上函数。

2023-03-10 22:02:02 206