spark
文章平均质量分 55
计算机界的小学生
这个作者很懒,什么都没留下…
展开
-
SparkStreaming-----第一个wordcount,算子,Driver HA
1.sparkStreaming流式处理框架,是Spark API的扩展,RDD最终封装到DStream中2.第一个wordcountpom依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>3.0.0</version> &l原创 2021-12-01 22:19:26 · 1068 阅读 · 0 评论 -
sparkSQL------读取Hive数据、UDF和UDAF自定义函数、SparkSQL开窗函数
1.读取Hive中的数据加载成DataFrame <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.3.1</version> </dependency>object sparkSQL06 { def m原创 2021-11-30 12:23:06 · 1686 阅读 · 0 评论 -
SparkSQL-----各种方式加载DataFrame
1.SparkSQL介绍SaprkSQL完全脱离了Hive的限制,能够在Scala中写SQL语句。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用。2. Spark on Hive和Hive on SparkSpark on Hive: Hive只作为储存角色,Spark负责sql解析优化,执行。Hive on Spark:Hive即作为存储又负责sql的解析优化,Spark负责执行。3.DataFrameDataFrame也是一个分布式数据原创 2021-11-25 12:34:44 · 1640 阅读 · 0 评论 -
spark(五)-----广播变量、累加器、Spark Master、Shuffle
1.广播变量是什么2.使用原创 2021-11-20 19:55:27 · 744 阅读 · 0 评论 -
spark(四)-------术语解释、案例、二次排序及案例、分组取topN及案例
1.spark-core中的术语Master:资源管理的主节点Cluster Manager:在集群上获取资源的外部服务Worker Node:资源管理的从节点或者说管理本机资源的进程Application:基于Spark的用户程序,包含了driver程序和运行在集群上的executor程序Driver Program:用来连接工作进程的程序Executor:是在一个worker进程所管理的节点上为某Application启动的一个进程。Task:被送到某个executor上的工作单元Job原创 2021-11-12 20:28:32 · 1483 阅读 · 0 评论 -
spark(二)--------集群搭建
1.spark下载地址spark.apache.org版本选择2.3.1,个人建议不选择.0结尾的,测试版容易有bug2.解压并配置worker节点我们需要一台虚拟机作为master节点,两台作为worker节点将下载好的spark安装包上传到master节点,并解压[root@hadoop102 module]# tar -zvxf spark-3.0.0-bin-hadoop3.2.tgz解压后我们进入conf文件夹下的slaves.template文件,个人不建议直接vim,先将该原创 2021-11-06 16:16:31 · 1054 阅读 · 0 评论 -
spark(三)------spark pi任务提交
1.输出1到100的数字中x,y轴的和在单位圆中的点,并统计个数object sparkPi { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf() conf.setAppName("sparkPi") conf.setMaster("local") val context: SparkContext = new SparkContext(conf) val原创 2021-11-07 14:28:45 · 2877 阅读 · 0 评论 -
spark与scala版本报错:NoSuchMethodError
1.一般来说这是版本不对应的报错,spark3对应的scala版本应该是2.12,具体见官网,然后讲scala版本进行修改,修改方式2.scala下载地址:原创 2021-11-02 16:07:51 · 317 阅读 · 0 评论 -
spark wordcount
1.创建maven项目,引入pom依赖```xml<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </dependency></dependencies><原创 2021-11-02 10:34:31 · 239 阅读 · 0 评论 -
spark(一)----算子
1.算子:RDD的方法就叫算子RDD:spark中分区的集合2.spark中算子分类:(1)Transformations类算子:不能自己执行,需要Action类算子。flatMap,map,sortBy,sortByKey,mapToPair,reduceByKey(2)Action类算子:出发Transformation类算子执行,foreach(3)...原创 2021-11-02 10:31:12 · 369 阅读 · 0 评论