自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 SparkSQL数据源

save()方法支持设置保存模式,使用可用于指定将Dataset保存到数据源的预期行为,指定如何处理现有数据(例如,执行时设置类型为Overwrite,则数据将在写出新数据之前被删除。)但需要注意的这些保存模式不使用任何锁定并且不是原子的。SaveModeScala/Java含义(默认)将Dataset保存到数据源时,如果数据已存在,则会引发异常。将Dataset保存到数据源时,如果数据/表已存在,则Dataset的内容应附加到现有数据。覆盖模式意味着在将Dataset。

2024-04-24 17:44:19 1566

原创 运算符的使用

在 Python 中,变量不需要声明的,变量的赋值操作就是变量的声明和定义过程,这个过程会在内存中为我们开辟一段存储空间存放我们所声明的变量。tom 没有说谎,jerry 也没有说谎,则逻辑与表示 tom 与 jerry 都没有说谎,逻辑与的值为真。本关介绍 Python 中的一些基本运算符,并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算,然后输出相应的结果。# 先将var1与var2按位与,然后计算得到的值与var3的和,最后后将这个值乘以var4,并将最终结果存入result变量。

2024-04-24 17:17:51 488

原创 Python简介

A、编译型B、解释型C、A 和BD、机器语言2、(A )开发环境是Python内置的开发环境A、idleB、pycharmC、anacondaD、jupyter3、(D )开发环境是基于计算全过程的,即将文档、代码和运行结果集中在一起的开发环境A、idleB、pycharmC、anacondaD、jupyter4、关于Python2.7和Python3.7兼容性描述正确的是( C)A、Python2.7兼容Python3.7B、Python3.7兼容Python2.7C、二者不兼容D、不确定。

2024-04-24 17:07:58 786

原创 MapReduce 基础实战

MapReduce是一种可用于数据处理的编程模型,我们现在设想一个场景,你接到一个任务,任务是:挖掘分析我国气象中心近年来的数据日志,该数据日志大小有3T,让你分析计算出每一年的最高气温,如果你现在只有一台计算机,如何处理呢?我想你应该会读取这些数据,并且将读取到的数据与目前的最大气温值进行比较。比较完所有的数据之后就可以得出最高气温了。不过以我们的经验都知道要处理这么多数据肯定是非常耗时的。如果我现在给你三台机器,你会如何处理呢?

2024-04-24 16:50:31 707

原创 HDFS 理论讲解

HDFS 是 Hadoop 自带的分布式文件系统,即 Hadoop Distributed File System。HDFS 是一个使用 Java 语言实现的分布式、可横向扩展的文件系统。

2024-04-24 16:32:54 747

原创 Hadoop概述

Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。Hadoop 采用 MapReduce 分布式计算框架,根据 GFS 原理开发了 HDFS(分布式文件系统),并根据 BigTable 原理开发了 HBase 数据存储系统。Hadoop 和 Google 内部使用的分布式计算系统原理相同,其开源特性使其成为分布式计算系统的事实上的国际标准。

2024-04-24 16:29:50 619 2

原创 SparkSQL简单使用

Spark SQL是用来操作结构化和半结构化数据的接口。当每条存储记录共用已知的字段集合,数据符合此条件时,Spark SQL就会使得针对这些数据的读取和查询变得更加简单高效。具体来说,Spark SQL提供了以下三大功能: (1)Spark SQL可以从各种结构化数据源(例如JSONParquet等)中读取数据。(2)Spark SQL不仅支持在Spark程序内使用SQL语句进行数据查询,也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器(JDBC/ODBC)连接。

2024-04-24 15:53:47 587 3

原创 Spark算子 - Python

2.创建一个内容为[("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)]的列表List。# 2.创建一个内容为[("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5)]的列表List。偶数转换成该数的平方。奇数转换成该数的立方。# 2.创建一个内容为(1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1)的列表List。

2024-04-22 10:50:57 591

原创 Spark算子 - JAVA版本

将字符串进行切割,例如:"python java" -> "python","java","java scala" -> "java","scala"* 将字符串与该字符串的长度组合成一个元组,例如:dog --> (dog,3),salmon --> (salmon,6)* 将字符串与该字符串的长度组合成一个元组,例如:dog --> (dog,3),salmon --> (salmon,6)

2024-04-22 10:41:33 1634

原创 Spark算子--Scala版本

/拆分重新组合(例:(key,(v2.0,v2.5,v3.0))拆分成(key,(v2.0,v2.5))(key,(v2.5,v3.0)))//按需求整理输出格式(例:(2017-08-14,Lily,Facebook,360 Shop,v1.2,v2.0))//过滤版本号重复的(例:(v2.0,v2.0))以及版本号只有一个的(例(v1.0))//按key分组,key是除城市字段和版本号字段以外的所有字段,value是版本号。//第一步:通过获取rdd中每个元素的长度创建新的rdd1。

2024-04-22 10:23:53 2173

原创 Spark算子综合案例 - Scala篇

补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。//2.切分压平、直接好友拼接加入集合、遍历、间接好友拼接、返回集合。//4判断每一行里如果为直接好友将其次数设为0,如果不是+1。//5过滤掉次数为0的剩下的就是间接好友及其次数。区域内进行代码补充,完成统计间接好友的数量的程序。else ("直接好友", 0)请仔细阅读右侧代码,根据方法内的提示,在。知识完成 " 好友推荐 " 的程序。数据说明(第二行为例): 这个人叫。在间接好友关系中出现的次数为。

2024-04-22 09:52:03 1110 1

原创 RDD的创建 - Python

PySpark可以从Hadoop支持的任何存储源创建分布式数据集,包括本地文件系统,HDFSCassandraHBaseAmazon S3等。Spark支持文本文件,和任何其他。文本文件RDD可以使用创建的textFile方法。此方法需要一个URI的文件(本地路径的机器上,或一个等 URI),并读取其作为行的集合。

2024-04-22 09:44:42 265 1

原创 RDD的创建 -Java

/第二步:将文件中每行的数据切分,得到自己想要的返回值。本关任务:读取文本文件,按照文本中数据,输出老师及其出现次数。//第一步:以外部文件方式创建RDD。//第三步:将相同的key进行聚合。为了完成本关任务,你需要掌握:1.读取文件创建。函数后会进行一定的操作把每个元素都转换成一个。//第四步:将结果收集起来。处补充代码,输出老师姓名和出现次数。根据提示,在右侧编辑器。,2.本关所需算子。

2024-04-22 09:42:04 557

原创 RDD的创建 -Scala

/第二步:将文件中每行的数据切分,得到自己想要的返回值。本关任务:读取文本文件,按照文本中数据,输出老师及其出现次数。处补充代码,按每位老师出现的次数降序,输出老师姓名和出现次数。为了完成本关任务,你需要掌握:1.读取文件创建。中的每个元素都执行一个指定的函数来产生一个新的。//第一步:以外部文件方式创建RDD。//第三步:将相同的key进行聚合。//第四步:按出现次数进行降序。根据提示,在右侧编辑器。,2.本关所需算子。

2024-04-22 09:38:02 434

原创 RDD概述

RDD是Spark的核心抽象,即弹性分布式数据集代表一个不可变,可分区,里面元素可并行计算的集合。其具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。RDD结构图。

2024-04-18 18:07:16 283 1

原创 SparkContext初始化--Java篇

/第二步:初始化SparkContext。//第三步:关闭SparkContext。根据提示,在右侧编辑器补充代码,使程序正确运行,输出。//第一步:设置SparkConf。本关任务:掌握如何实现。

2024-04-18 18:01:29 340

原创 SparkContext初始化--Scala篇

根据提示,在右侧编辑器补充代码,使程序正确运行,输出。//第二步:初始化SparkContext。//第三步:关闭SparkContext。//第一步:设置SparkConf。

2024-04-18 17:42:14 462 1

原创 Spark运行架构及流程

弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。:指的是在集群上获取资源的外部服务。3、Stage的task数量由什么决定 A。通信,进行资源申请、任务的分配和监控等,当。,代表一组关联的,相互之间没有。依赖关系的任务组成的任务集。1、以下层级关系正确的是?应用程序的运行环境,在。的一个进程,负责运行。的基本调度单位,一个。

2024-04-18 17:34:52 676 1

原创 Spark任务提交

头歌

2024-04-18 17:04:11 292 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除