![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 86
000X000
这个作者很懒,什么都没留下…
展开
-
Spark核心知识要点(八)Shuffle配置调优
Spark核心知识要点(八)Shuffle配置调优原创 2024-07-25 10:44:22 · 258 阅读 · 0 评论 -
Spark核心知识要点(七)程序开发调优
Spark核心知识要点(六)程序开发调优原创 2024-07-25 10:43:40 · 293 阅读 · 0 评论 -
Spark核心知识要点(六)资源配置调优
Spark核心知识要点(六)资源配置调优原创 2024-07-25 10:42:32 · 254 阅读 · 0 评论 -
Spark核心知识要点(五)数据倾斜解决方案
Spark核心知识要点(五)数据倾斜解决方案原创 2024-07-25 10:41:03 · 302 阅读 · 0 评论 -
Spark核心知识要点(四)
Spark核心知识要点(四)原创 2024-07-25 10:39:47 · 201 阅读 · 0 评论 -
Spark核心知识要点(三)
Spark核心知识要点(三)原创 2024-07-25 10:39:07 · 276 阅读 · 0 评论 -
Spark核心知识要点(二)
Spark核心知识要点(二)原创 2024-07-25 10:38:08 · 281 阅读 · 0 评论 -
Spark核心知识要点(一)
Spark核心知识要点(一)原创 2024-07-25 10:37:28 · 414 阅读 · 0 评论 -
Spark Core 企业级开发调优
Spark Core 企业级开发调优原创 2024-06-06 08:57:19 · 1009 阅读 · 0 评论 -
解决Spark流处理产生的小文件问题
解决Spark流批产生的小文件问题原创 2024-06-06 08:47:41 · 952 阅读 · 0 评论 -
Spark数据倾斜处理过程记录
Spark数据倾斜处理过程记录原创 2022-08-26 09:18:14 · 176 阅读 · 0 评论 -
Hive、SparkSQL是如何决定写文件的数量的?
Hive、SparkSQL是如何决定写文件的数量的?原创 2022-08-16 13:18:02 · 471 阅读 · 0 评论 -
Spark读取Hive表后会有多少个Task?
Spark读取Hive表后会有多少个Task?原创 2022-08-04 10:57:06 · 724 阅读 · 0 评论 -
Spark数据倾斜解决方案
Spark数据倾斜解决方案原创 2022-05-30 15:21:17 · 291 阅读 · 0 评论 -
大数据开发面试之26个Spark高频考点
大数据开发面试之26个Spark高频考点原创 2022-05-16 10:10:01 · 204 阅读 · 0 评论 -
高性能Spark作业调优
高性能Spark作业调优原创 2022-04-11 09:08:26 · 560 阅读 · 0 评论 -
Spark Standalone和yarn区别
Spark Standalone和yarn区别原创 2022-03-16 11:03:05 · 1670 阅读 · 0 评论 -
Spark数据倾斜调优
一 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。1.1数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常原创 2021-08-26 10:27:57 · 202 阅读 · 0 评论 -
SparkSession和sparkSQL
一、概述spark 有三大引擎,spark core、sparkSQL、sparkStreaming,spark core 的关键抽象是 SparkContext、RDD;SparkSQL 的关键抽象是 SparkSession、DataFrame;sparkStreaming 的关键抽象是 StreamingContext、DStreamSparkSession是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,他可以代替 SparkContex.原创 2021-02-25 11:21:23 · 2226 阅读 · 0 评论 -
理解SparkSession
SparkSession是DataSet和DataFrame编写Spark程序的入口SparkSession的功能:创建DataFrame 以关系型数据库中表的形式生成DataFrame,之后便可以执行SQL语句,适合小数据量的操作 读取.parquet格式的文件,得到DataFrame创建SparkSession对象:>>> spark = SparkSession.builder \ .master("local") \ ...原创 2021-02-25 11:12:54 · 1959 阅读 · 0 评论 -
理解 Spark DataFrame
DataFrame它不是spark sql提出来的,而是早期在R、Pandas语言就已经有了的DataSet: A DataSet is a distributed collection of data. (分布式的数据集)DataFrame:A DataFrame is a DataSet organized into named columns.以列(列名,列类型,列值)的形式构成的分布式的数据集,按照列赋予不同的名称studentid:intname:stringcity:st.原创 2021-02-25 10:41:26 · 395 阅读 · 0 评论 -
Spark DataFrame
目录Spark创建DataFrame的不同方式1. Create Spark DataFrame from RDD2. 从List和Seq集合中创建Spark DataFrame3. 从CSV文件创建Spark DataFrame4. 从text文件创建5. 从JSON文件创建6. 从XML文件创建9. 从HBase创建DataFrameSpark创建DataFrame的不同方式本文介绍了使用Scala示例在Spark中创建DataFrame(createDat.原创 2021-02-25 10:32:23 · 711 阅读 · 0 评论 -
SparkSQL HiveSQL 常用正则表达式
SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式1、匹配汉字:2、匹配手机号码3、匹配身份证:4、SparkSQL HiveSQL 常用正则函数:5、SparkSQL分组 ...原创 2020-12-03 15:30:53 · 4597 阅读 · 0 评论 -
大数据技术:Spark相关问题汇总
问题导读:1、Spark有几种部署方式?请分别简要论述2、Spark任务使用什么方式进行任务提交?3、Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?4、简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?上一篇:大数据技术之高频面试题(五):涉及技术Sqoop、Scala4.10 Spark4.10.1 Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构原创 2020-10-23 10:07:08 · 270 阅读 · 0 评论 -
面试最新整理常问Spark知识点
问题导读:1. RDD有哪些特性?2. Map和MapPartitions有哪些区别?3.为什么Spark Application在没有获得足够的资源,job就开始执行了,可能会导致什么什么问题发生?RDD的五个特性:1.A list of partitionsRDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。2.A function for computing.原创 2020-09-18 09:15:23 · 284 阅读 · 0 评论 -
Spark SQL 项目:实现各区域热门商品前N统计
一. 需求1.1 需求简介这里的热门商品是从点击量的维度来看的.计算各个区域前三大热门商品,并备注上每个商品在主要城市中的分布比例,超过两个城市用其他显示。1.2 思路分析使用 sql 来完成. 碰到复杂的需求, 可以使用 udf 或 udaf查询出来所有的点击记录, 并与 city_info 表连接, 得到每个城市所在的地区. 与 Product_info 表连接得到产品名称按照地区和商品 id 分组, 统计出每个商品在每个地区的总点击次数每个地区内按照点击次数降序排列只取前三名. 并把结果保存在数据库中原创 2020-08-18 14:50:52 · 1530 阅读 · 1 评论 -
Spark Streaming架构及工作原理
1、Spark Streaming有哪些组件?2、Micro-Batch Architecture如何理解?3、Spark Streaming工作原理是什么?4、如何进行DStream 操作?一、简介Spark Streaming 是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kafka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Red...原创 2020-03-31 14:27:16 · 1408 阅读 · 0 评论 -
Spark实践经验和Spark原理为依据调优spark
1.Executor和分区该如何调优?2.缓存和数据本地性该如何调整?3.在TaskSet级别Spark提供了哪两种模式?概述本文以Spark实践经验和Spark原理为依据,总结了Spark性能调优的一些方法。这些总结基于Spark-1.0.0版本。对于最近推出的Spark-1.1.0版本,本文介绍了几个版本增强。Spark性能调优Executor和分区Executor是一个独立的JV...原创 2020-03-20 09:33:50 · 518 阅读 · 0 评论 -
Hadoop Spark Flink 比较
1. Hadoop vs Spark vs Flink - 数据处理Hadoop:Apache Hadoop专为批处理而构建。它需要输入中的大数据集,同时处理它并产生结果。批处理在处理大量数据时非常有效。由于数据的大小和系统的计算能力,输出会产生延迟。Spark:Apache Spark也是Hadoop Ecosystem的一部分。它也是一个批量处理系统,但它也支持流处理。Flink...原创 2019-12-20 20:57:22 · 2370 阅读 · 0 评论 -
spark 基本概念解析
spark 基本概念解析1. Application用户在 spark 上构建的程序,包含了 driver 程序以及在集群上运行的程序代码,物理机器上涉及了 driver,master,worker 三个节点.2. Driver Program创建 sc ,定义 udf 函数,定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。3. Clus...转载 2019-06-24 14:22:04 · 281 阅读 · 0 评论 -
什么是 Spark
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序,替代 MapReduce 运行在 Yarn上,存储在 HDFS 上的一个大数据批处理程序;也可能是指使用包含 Spark sql、...原创 2019-06-24 11:14:28 · 190 阅读 · 0 评论 -
Spark问题出错汇总
一.经验1.Spark Streaming包含三种计算模式:nonstate .stateful .window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。5.kafka的log.dirs不要设置成/tmp下的目录,貌似tmp...原创 2019-06-24 11:05:09 · 1037 阅读 · 0 评论 -
Spark SQL/Hive调优
1. 数据倾斜的原因1.1 操作关键词 情形 后果 Join 其中一个表较小,但是key集中 分发到某一个或几个Reduce上的数据远高平均值 大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由一个reduce处理,非常慢 group by group by 维度过小,某值的数量过多 处理某值的reduce非常耗时 ...原创 2019-06-25 17:35:57 · 414 阅读 · 0 评论 -
Spark精细深度比较:为何ShuffleManager改成了SortShuffleManager
1.HashShuffleManager 运行原理是什么?2.SortShuffleManager 运行机制及其原理是什么?3.shuffle 相关参数如何使用?在 Spark 的源码中,负责 shuffle 过程的执行、计算、处理的组件主要是 ShuffleManager。在 Spark 1.2 以前,默认的 shuffle 计算引擎是 HashShuffleManager。该 ShuffleM...原创 2019-06-21 21:29:43 · 149 阅读 · 0 评论 -
Spark2内存管理详解
问题如下:1.Spark 中堆内内存是如何进行规划的?2.Spark 对堆内内存的管理的具体流程是怎样的?3.Spark 能否完全避免内存溢出(OOM, Out of Memory)的异常?4.Spark 堆外内存是如何进行规划的它有哪些优势?5.如何通过MemoryManager接口管理内存?6.静态内存是如何分配的?7.堆内内存大小的计算方式是什么?8.统一内存...原创 2019-04-23 21:03:49 · 202 阅读 · 0 评论