自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(88)
  • 收藏
  • 关注

原创 3.5 RDD持久化机制

从上述代码可以看出,cache()方法调用了无参的persist()方法,两者的默认存储级别都为MEMORY_ONLY,但cache()方法不可更改存储级别,而persist()方法可以通过参数自定义存储级别。Spark中重要的功能之一是可以将某个RDD中的数据保存到内存或者磁盘中,每次需要对这个RDD进行算子操作时,可以直接从内存或磁盘中取出该RDD的持久化数据,而不需要从头计算才能得到这个RDD。如果内存不够,就将未缓存的分区存储在磁盘上,并在需要这些分区时从磁盘读取。

2023-06-14 14:02:30 1018

原创 3.4 理解RDD依赖

一个父RDD的一个分区不可能对应一个子RDD的多个分区。对一个RDD进行reduceByKey()操作,RDD中相同key的所有记录将进行聚合,而key相同的所有记录可能不在同一个分区中,甚至不在同一个节点上,但是该操作必须将这些记录聚集到一起进行计算才能保证结果准确,因此reduceByKey()操作会产生Shuffle,也会产生宽依赖。在Spark中,对RDD的每一次转化操作都会生成一个新的RDD,由于RDD的懒加载特性,新的RDD会依赖原有RDD,因此RDD之间存在类似流水线的前后依赖关系。

2023-06-14 14:01:58 547

原创 3.2 掌握RDD算子

例如,rdd1的元素以(k,v)表示,rdd2的元素以(k, w)表示,进行左外连接时将以rdd1为基准,rdd2中的k与rdd1的k相同的元素将连接到一起,生成的结果形式为(k, (v, Some(w))。rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反,其与数据库的右外连接类似,以右边的RDD为基准(例如rdd1.rightOuterJoin(rdd2),以rdd2为基准),右边RDD的记录一定会存在。转换算子负责对RDD中的数据进行计算并转换为新的RDD。

2023-06-14 14:00:22 1158

原创 3.3 掌握RDD分区

在分布式程序中,网络通信的开销是很大的,因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能,Spark程序可以通过控制RDD分区方式来减少通信开销。textFile()方法通常用于读取HDFS中的文本文件,使用该方法创建RDD时,Spark会对文件进行分片操作(类似于MapReduce的分片,实际上调用的是MapReduce的分片接口),分片操作完成后,每个分区将存储一个分片的数据,因此分区的数量等于分片的数量。RDD各个分区中的数据可以并行计算,因此分区的数量决定了并行计算的粒度。

2023-06-14 13:59:35 1198

原创 3.1 掌握RDD的创建

执行命令:spark-submit --master spark://master:7077 --deploy-mode cluster --class net.huawei.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/output:统计结果的输出路径。

2023-06-14 13:57:49 1049

原创 2.4 IDEA开发词频统计项目

执行命令:spark-submit --master spark://master:7077 --deploy-mode cluster --class net.huawei.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/output:统计结果的输出路径。

2023-06-11 20:21:42 1576

原创 2.2 搭建Spark开发环境

一、Spark开发环境准备工作由于Spark仅仅是一种计算框架,不负责数据的存储和管理,因此,通常都会将Spark和Hadoop进行统一部署,由Hadoop中的HDFS、HBase等组件负责数据的存储管理,Spark负责数据计算。安装Spark集群前,需要安装Hadoop环境软件 版本Linux系统 CentOS7.9版本Hadoop 3.3.4版本JDK 1.8版本 (jdk8u231)Spark 3.3.2版本二、了解Spark的部署模式(一)Standalone模式。

2023-06-11 20:20:33 1724

原创 2.3 Spark运行架构与原理

Spark有多种运行模式,可以运行在一台机器上,称为本地(单机)模式,也可以以YARN或Mesos作为底层资源调度系统以分布式的方式在集群中运行,称为Spark On YARN模式,还可以使用Spark自带的资源调度系统,称为Spark Standalone模式。Driver进程向Cluster Manager申请资源,Cluster Manager接收到Application的注册请求后,会使用自己的资源调度算法,在Spark集群的Worker节点上,通知Worker为应用启动多个Executor。

2023-06-11 20:19:22 1450 1

原创 2.1 初识Spark

淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等,将Spark运用于淘宝的推荐相关算法上,同时还利用GraphX解决了许多生产问题,包括以下计算场景:基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。所以说,Spark是一个更加快速、高效的大数据计算平台。Spark提供的分布式图处理框架,拥有对图计算和图挖掘算法的API接口及丰富的功能和运算符,便于对分布式图处理的需求,能在海量数据上运行复杂的图算法。

2023-06-11 20:17:24 565

原创 1.4 掌握Scala运算符

例如:3 + 2 * 5,我们期望获得的是13,但是根据Scala特点,Scala中所有运算符其实就是方法,那么按照这种说法,表达式应该等同于(3).+(2) 得到5,(5).*(5) 得到25,与我们的预期不符!靠的是运算符优先级。如果运算符以=结尾,且运算符并非比较运算符 =、==或=,则运算符优先级等同于=,即优先级最低,例如+=、-=等;由于Scala并没有真正的运算符,运算符其实是方法的一种形式,所以此处运算符的优先级,其实就是指方法的优先级。Scala中,如果是基本数据类型,==与!

2023-06-11 20:15:30 1681

原创 1.3 使用Scala集成开发环境

在前面,我们都是利用Scala Shell交互式环境来学习Scala基础知识,虽然交互式有快捷的优点,但是要写比较完整的程序,编辑就显得极为不便,为了提高开发效率,我们要学会使用Scala的集成开发环境 - IntelliJ IDEA。在包net.huawei.day01上右击,选择New→Scala Class,选择创建Object,创建一个Scala对象TestHelloWorld,在里面创建主方法,实例化HelloScala,然后调用其speak()方法。Scala插件的安装有两种方式:在线与离线。

2023-06-11 20:14:59 1328

原创 1.2 Scala变量与数据类型

Unit是一个不包含任何信息的值类型,和Java语言中的void等同,用作不返回任何结果的方法的结果类型。九个基本类型提供的方法比较有限,为了拓展其功能,Scala提供了对应九个富包装器,其实也是九个类,这九个类的直接量在需要时可以自动被转换为其对应的富包装类来调用富包装类提供的额外方法。所有非值类型都被定义为引用类型。Null是所有引用类型(AnyRef)的子类,所以Null可以赋值给所有的引用类型,但不能赋值给值类型,这个和Java的语义是相同的。在Scala中,所有的值都有一个类型,包括数值和函数。

2023-06-11 20:12:23 1351

原创 3.1 掌握RDD的创建

将数据集(hello, world, scala, spark, love, spark, happy)存储在三个节点上,节点一存储(hello, world),节点二存储(scala, spark, love),节点三存储(spark, happy),这样对三个节点的数据可以并行计算,并且三个节点的数据共同组成了一个RDD。在编程时,可以把RDD看作是一个数据操作的基本单位,而不必关心数据的分布式特性,Spark会自动将RDD的数据分发到集群的各个节点。不同的是,数据的来源路径不同。

2023-06-11 20:10:24 1711

原创 大二下期学期总结

学期总结

2023-06-11 19:49:51 81

原创 Spark SQL概述、数据帧与数据集

定义一个样例类Student,用于存放数据描述信息(Schema)基于样例类创建对象很简单,不需要new关键字,只需要传入相应参数即可创建对象。

2023-06-06 09:06:26 258

原创 企业级开发1.6 JdbcTemplate操作

JdbcTemplate操作

2023-05-31 08:43:30 384

原创 JAVA企业级开发 1.5 初探Spring AOP

Spring AOP

2023-05-31 08:28:33 268

原创 本地spark报错:java.lang.UnsatisfiedLinkError:

Spark学习中,运行。

2023-03-14 20:25:49 300 1

原创 数据结构(Java编写):编辑顺序列表

写一个顺序表类`Seqlist`,属性两个(int data[100] , int len),构造方法(),`creatlist()`(产生10个元素,分别是1,4,9,16,...,100 ),`outputlist()`(输出顺序表),`locate()`(查找值为x的位置,返回其下标),`insert()`(在第i个位置插入值x),`delete()`(删除第i个位置的元素),然后测试以上函数。

2023-03-10 22:02:02 206

原创 Python-蓝桥杯:输出55555以内的纯素数

纯素数

2023-03-07 19:25:44 295

原创 JAVA企业级开发 1.4 Spring_采用Java配置类管理Bean

采用Java配置类管理Bean。

2023-02-26 19:16:14 311

原创 企业级信息系统开发学习1.3——利用注解配置取代Spring配置文件

利用注解配置类取代Spring配置文件

2023-02-26 19:03:09 470

原创 企业级信息系统开发学习1.2 ——利用组件注解符精简Spring配置文件

利用组件注解符精简Spring配置文件、 程序优化 - 面向接口

2023-02-23 11:03:43 137

原创 继企业级信息系统开发学习1.1 —— Spring配置文件管理Bean

通过构造方法来设置骑士的姓名与要执行的任务。Rescue Damsel - 拯救少女。

2023-02-15 16:07:45 332

原创 企业级信息系统开发学习1.1 初识Spring——采用Spring配置文件管理Bean

企业级信息系统开发Spring

2023-02-14 22:23:49 397

原创 期末总结 —— 大数据

学期总结

2022-12-21 19:21:44 1748

原创 MR案例:学生排序

MR案例:学生排序

2022-12-17 20:32:39 422

原创 MR案例:计算学生成绩

MR案例:计算学生成绩

2022-12-17 19:01:15 879

原创 大数据学习--MapReduce运行模式

MapReduce运行模式

2022-12-17 18:50:18 466

原创 大数据学习 -- 利用Java API 将文件写入HDFS

利用Java API写入HDFS文件

2022-12-14 09:11:52 2298

原创 大数据学习--使用Java API访问HDFS

利用JavaAPI访问HDFS

2022-12-14 08:53:22 559

原创 js_秒杀倒计时

js练习秒杀倒计时

2022-12-09 21:47:53 151

原创 js_使用递归函数求斐波那契数列的前20项并输出

递归输出斐波拉契数列前二十项

2022-12-07 17:32:57 1845

原创 js_实现网页中简易计算器

网页中实现简易的计算器功能

2022-12-07 17:21:21 766

原创 js_实现网页自动跳转

网页定时自动跳转

2022-12-07 17:17:41 1008

原创 大数据学习3.4 Hadoop集群测试

Hadoop集群测试

2022-11-16 20:31:13 509

原创 大数据学习3.3 Hadoop集群配置

Hadoop配置

2022-11-16 09:31:22 263

原创 大数据学习3.2 部署Hadoop

Hadoop部署

2022-11-09 17:23:26 448

原创 大数据学习3.1 环境准备(SSH服务配置)

SSH配置,免密登录

2022-11-09 16:50:55 976

原创 大数据学习3.1 Hadoop环境准备

Hadoop环境准备

2022-11-06 15:02:30 738

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除