Spark
文章平均质量分 93
Spark核心知识讲解
大数据梦想家
专注与研究大数据基础,理论,架构与原型实现。
个人原创公众号「 大数据梦想家 」,每日更新大数据干货,欢迎上车!
一天的生活就是一生的缩影。在最美的年华,做最好的自己!!!
展开
-
大数据开发面试之26个Spark高频考点
Spark高频考点,你都会了吗?原创 2022-05-14 01:00:28 · 1628 阅读 · 0 评论 -
关于Spark的面试题,你应该知道这些!
关于Spark的面试题,你应该知道这些!原创 2020-06-08 23:16:21 · 6109 阅读 · 36 评论 -
不会这20个Spark热门技术点,你敢出去面试大数据吗?
关于大数据面试中对Spark的知识考查不需本菌多解释什么了吧~本篇博客,博主为大家分享20个Spark热门技术点,希望今年出去面试,实习的同学,尤其是想去大厂的同学,一定要把下面的20个技术点看完。文章目录1、Spark有几种部署方式?(重点)2、Spark提交作业参数(重点)3、简述Spark on yarn的作业提交流程(重点)4、请列举Spark的transformation算子(不少于5个)(重点)5原创 2020-05-28 22:38:41 · 9248 阅读 · 32 评论 -
Spark综合性练习(Spark,Kafka,Spark Streaming,MySQL)
> **写在前面:** 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,`写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新`。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:[http://alices.ibilibili.xyz/](http://alices.ibilibili.xyz/) , 博客主页:[https://alice.blog.csdn.net/](http原创 2020-04-26 10:00:51 · 10692 阅读 · 23 评论 -
小白亲绘思维导图,带你重游Spark生态圈!
肝了有两周,终于把Spark的内容学的差不多了,为了高度总结所学内容的理论精髓,老粉丝肯定都清楚,博主肯定又要做思维导图总结经验了。哈哈,谁让身为蒟蒻的我已经推出了几张导图分享到CSDN上了呢!良心推荐:《史上最良心的scala的思维导图,图文并茂,入坑首选!》《全网最不靠谱的大数据思维导图,带你提前了解Hadoop生态系统,解锁新手福利!!!》建议收藏:《全网最全Python学习路线图+14张思维导图原创 2020-04-23 18:30:03 · 10977 阅读 · 35 评论 -
震惊!StructuredStreaming整合Kafka和MySQL原来这么简单?
上一篇博客博主已经为大家从发展史到基本实战为大家详细介绍了StructedStreaming(具体请见:《看了这篇博客,你还敢说不会Structured Streaming?》)。本篇博客,博主将紧随前沿,为大家带来关于StructuredStreaming整合Kafka和MySQL的教程。 码字不易,先赞后看,养成习原创 2020-04-22 10:47:00 · 11012 阅读 · 29 评论 -
一文告诉你SparkStreaming如何整合Kafka!
关于SparkStreaming从理论到实战的部分,博主已经在前面的博客中介绍了。本篇博客,为大家带来的是SparkStreaming整合Kafka的教程!文章目录Kafka回顾整合kafka两种模式说明1.Receiver接收方式:2.Direct直连方式spark-streaming-kafka-0-8(了解)1.Receiver2.Directspark-streaming-kafka-0-10结语原创 2020-04-19 19:33:30 · 12028 阅读 · 34 评论 -
十年磨一剑,SparkSQL来一题!
之前推出过一期关于Spark的练习,反响还不错。而最近博主又写了关于SparkSQL,SparkStreaming,Structured Streaming的内容,为了巩固大家的基础,提升实战的能力,故备下了一道综合性比较全面的题,希望大家能够受用。文章目录准备数据student.txtcourse.txtscore.txtteacher.txt上题1.查询Student表中“95031”班或性别为“女”的同原创 2020-04-19 11:13:58 · 10618 阅读 · 28 评论 -
春城无处不飞花,小白带你侃SparkStreaming(实战应用篇)
自上一篇《春城无处不飞花,小白带你侃SparkStreaming(原理引入篇)》结束之后,博主就一直在酝酿着下一篇怎么开始,这不,忙了几天终于也有了下文。 码字不易,先赞后看,养成习惯!文章目录第三章 Spark Streaming实战3.1 WordCount3.1.1. 需求&准备3.1.2 代码演原创 2020-04-19 09:07:18 · 9784 阅读 · 24 评论 -
看了这篇博客,你还敢说不会Structured Streaming?
本篇博客,博主为大家带来的是关于Structured Streaming从入门到实战的一个攻略,希望感兴趣的朋友多多点赞支持!!文章目录一、Structured Streaming曲折发展史1.1 SparkStreaming1.2.Structured Streaming1.2.1 介绍1.2.2 API1.2.3 主要优势1.2.4.编程模型二、 Structured Streaming实战2.1 创建原创 2020-04-17 09:36:04 · 10816 阅读 · 29 评论 -
春城无处不飞花,小白带你侃SparkStreaming(原理引入篇)
介绍完了SparkSQL,接下来让我们推开SparkStreaming的大门,接收新知识的洗礼。跟刚入坑SparkSQL时一样,让我们来回顾一下Spark的内置模块。 相信勤奋好学的大家肯定都还记得的对吧,那么接下来我们就要正式开始学习SparkStreaming咯~原创 2020-04-13 09:59:30 · 8873 阅读 · 16 评论 -
秋名山老司机从上车到翻车的悲痛经历,带你深刻了解什么是Spark on Hive!
本篇博客,博主为大家分享的内容是如何实现Spark on Hive,即让Hive只作为存储角色,Spark负责sql解析优化,执行…话不多说,直接上车! 文章目录上车前需知Spark on hive 与 hive on spark 的区别1. Spark on hive2.hive on spark上车概述发车一、原创 2020-04-12 19:52:56 · 8450 阅读 · 26 评论 -
关于SparkSQL的开窗函数,你应该知道这些!
文章目录1.概述介绍聚合函数和开窗函数开窗函数分类2. 准备工作3. 聚合开窗函数4. 排序开窗函数4.1 ROW_NUMBER顺序排序4.2 RANK跳跃排序4.3 DENSE_RANK连续排序4.4 NTILE分组排名[了解]结语1.概述介绍 相信用过MySQL的朋友都知道,MySQL中也有开窗函数的存在。开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函原创 2020-04-12 12:49:08 · 8319 阅读 · 22 评论 -
SparkSQL如何实现多数据源交互?这篇博客或许能告诉你答案!
学了一段时间的SparkSQL,相信大家都已经知道了SparkSQL是一个相当强大的存在,它在一个项目的架构中扮演着离线数据处理的"角色",相较于前面学过的HQL,SparkSQL能明显提高数据的处理效率。正因为如此,SparkSQL就会涉及到与多种的数据源进行一个交互的过程。那到底是如何交互的呢,下文或许能给你带来答案… &nb原创 2020-04-12 10:20:34 · 8503 阅读 · 18 评论 -
适合小白入门的IDEA开发SparkSQL详细教程
之前博主利用业余时间,梳理了一份《SparkSQL编程系列》,奈何当时考虑不周,写的不是很详细。于是在正式开始学习了之后,决定整理一篇适合像我一样的小白级别都能看得懂的IDEA操作SparkSQL教程,于是就有了下文… ...原创 2020-04-11 21:11:14 · 10091 阅读 · 26 评论 -
Ta来了,Ta来了,Spark基础能力测试题Ta来了!
因为这段时间在学习Spark,所以本篇博客为大家带来关于Spark的综合性练习一道。 码字不易,先赞后看,养成习惯! 首先让我们准备好该题所需的数据 test.txt &nb原创 2020-04-05 09:37:23 · 10283 阅读 · 26 评论 -
Spark之【SparkSQL编程】系列(No4)——《IDEA创建SparkSQL程序》
在之前的博客SparkSQL系列中,已经大致为大家介绍了DataFrame,DataSet的概念以及它们之间与RDD之间的互转的操作描述。本篇博客,为大家带来的是关于如何在IDEA上创建SparkSQL程序,并实现数据查询与(DataFrame,DataSet,RDD)互相转换的功能!...原创 2020-03-07 13:44:32 · 8345 阅读 · 4 评论 -
Spark之【SparkSQL编程】系列(No3)——《RDD、DataFrame、DataSet三者的共性和区别》
本篇作为【SparkSQL编程】系列的第三篇博客,为大家介绍的是RDD、DataFrame、DataSet三者的共性和区别。 码字不易,先赞后看,养成习惯!文章目录5. RDD、DataFrame、Dat...原创 2020-03-06 09:43:02 · 10673 阅读 · 2 评论 -
Spark之【SparkSQL编程】系列(No2)——《DataSet概念入门以及与DataFrame的互操作》
本篇作为【SparkSQL编程】系列的第二篇博客,为大家介绍的是DataSet。 码字不易,先赞后看,养成习惯!文章目录3. DataSet3.1 创建3.2 RDD转换为DataSet3.3 Data...原创 2020-03-01 22:11:38 · 7667 阅读 · 0 评论 -
Spark之【SparkSQL编程】系列(No1)——《SparkSession与DataFrame》
上一篇博客已经为大家介绍完了SparkSQL的基本概念以及其提供的两个编程抽象:DataFrame和DataSet,本篇博客,博主要为大家介绍的是关于SparkSQL编程的内容。 码字不易,先赞后看,养成习惯...原创 2020-03-01 18:07:40 · 9432 阅读 · 0 评论 -
Spark之【SparkSQL】入门概述
先让我们来回顾一下Spark的内置模块。 在之前的博客分享中,博主已经完成了对于Spark核心SparkCore的一个详细介绍。在接下来的几篇博客分享中,博主将为大家介绍的是SparkSQL。本篇,首先为大家...原创 2020-03-01 09:55:32 · 11290 阅读 · 16 评论 -
Spark之【RDD编程进阶】——累加器与广播变量的使用
上一篇博客博主已经为大家介绍了Spark中数据读取与保存,这一篇博客则带来了Spark中的编程进阶。其中就涉及到了累加器与广播变量的使用。文章目录RDD编程进阶1.累加器1.1系统累加器2.广播变量(调优策略)RDD编程进阶1.累加器  ...原创 2020-02-29 11:40:17 · 11151 阅读 · 1 评论 -
Spark之【数据读取与保存】详细说明
本篇博客,博主为大家介绍的是Spark的数据读取与保存。文章目录数据读取与保存1. 文件类数据读取与保存1.1 Text文件1.2 Json文件1.3 Sequence文件1.4 对象文件2. 文件系统类数据读取与保存2.1 HDFS2.2MySQL数据库连接2.3 HBase 数据库数据读取与...原创 2020-02-27 21:04:59 · 11994 阅读 · 1 评论 -
Spark之【键值对RDD数据分区器】介绍及使用说明
本篇博客,博主为大家介绍的是关于Spark中数据分区器的一些概念及使用讲解。文章目录键值对RDD数据分区器1.获取RDD分区2.Hash分区3.Ranger分区4.自定义分区键值对RDD数据分区器 S...原创 2020-02-27 09:35:33 · 10769 阅读 · 1 评论 -
Spark之【RDD编程】详细讲解(No6)——《RDD缓存与CheckPoint》
本篇博客是Spark之【RDD编程】系列第六篇,为大家介绍的是RDD缓存与CheckPoint。 该系列内容十分丰富,高能预警,先赞后看!文章目录7.RDD缓存8.RDD CheckPoint7.RD...原创 2020-02-26 17:00:13 · 9929 阅读 · 0 评论 -
Spark之【RDD编程】详细讲解(No5)——《RDD依赖关系》
本篇博客是Spark之【RDD编程】系列第五篇,为大家介绍的是RDD依赖关系。 该系列内容十分丰富,高能预警,先赞后看!文章目录6.RDD依赖关系6.1 Lineage6.2 窄依赖6.3 宽依赖6.4 ...原创 2020-02-26 10:37:33 · 11232 阅读 · 6 评论 -
Spark之【RDD编程】详细讲解(No4)——《RDD中的函数传递》
本篇博客是Spark之【RDD编程】系列第四篇,为大家带来的是RDD中的函数传递的内容。 该系列内容十分丰富,高能预警,先赞后看!文章目录5.RDD中的函数传递5.1 传递一个方法5.2 传递一个属性...原创 2020-02-25 22:07:33 · 9961 阅读 · 3 评论 -
Spark之【RDD编程】详细讲解(No3)——《Action行动算子》
本篇博客是Spark之【RDD编程】系列第三篇,为大家带来的是Action的内容。 该系列内容十分丰富,高能预警,先赞后看!文章目录4. Action4.1 reduce(func) 案例4.2 coll...原创 2020-02-25 14:37:18 · 10243 阅读 · 9 评论 -
Spark之【RDD编程】详细讲解(No2)——《Transformation转换算子》
本篇博客是Spark之【RDD编程】系列第二篇,为大家带来的是RDD的转换的内容。 该系列内容十分丰富,高能预警,先赞后看!文章目录3.RDD的转换(面试开发重点)3.1 Value类型3.1.1 map...原创 2020-02-25 13:07:27 · 9379 阅读 · 22 评论 -
Spark之【RDD编程】详细讲解(No1)——《编程模型的理解与RDD的创建》
上一篇博客《什么是RDD?带你快速了解Spark中RDD的概念!》为大家带来了RDD的概述之后。本篇博客,博主将继续前进,为大家带来RDD编程系列。 该系列第一篇,为大家带来的是编程模型的理解与RDD的创建!...原创 2020-02-25 12:49:19 · 8639 阅读 · 1 评论 -
什么是RDD?带你快速了解Spark中RDD的概念!
看了前面的几篇Spark博客,相信大家对于Spark的基本概念以及不同模式下的环境部署问题已经搞明白了。但其中,我们曾提到过Spark程序的核心,也就是弹性分布式数据集(RDD)。但到底什么是RDD,它是做什么用的呢?本篇博客,我们就来详细讨论它们的使用情况。文章目录RDD概述1.什么是RDD2.R...原创 2020-02-23 11:35:40 · 17517 阅读 · 1 评论 -
教你如何轻松配置Spark的历史日志服务器JobHistoryServer?
默认情况下,Spark程序运行完毕关闭窗口之后,就无法再查看运行记录的Web UI(4040)了,但通过 HistoryServer 可以提供一个服务, 通过读取日志文件, 使得我们可以在程序运行结束后, 依然能够查看运行过程。本篇博客,博主就为大家带来在Spark上配置JobHistoryServer...原创 2020-02-22 17:01:20 · 9271 阅读 · 0 评论 -
如何在IDEA上编写Spark程序?(本地+集群+java三种模式书写代码)
本篇博客,Alice为大家带来关于如何在IDEA上编写Spark程序的教程。文章目录写在前面准备材料图解WordCountpom.xml本地执行集群上运行Java8版[了解]写在前面 本次讲解我会通过...原创 2020-02-21 10:01:51 · 8581 阅读 · 0 评论 -
Spark命令详解
本篇博客,Alice为大家带来关于Spark命令的详解。spark-shell引入 之前我们使用提交任务都是使用spark-shell提交,spark-shell是Spark自带的交互式Shell程...原创 2020-02-21 09:20:00 · 11510 阅读 · 2 评论 -
Spark环境搭建——on yarn集群模式
本篇博客,Alice为大家带来关于如何搭建Spark的on yarn集群模式的教程。文章目录准备工作cluster模式client模式[了解]两种模式的区别官方文档:http://spark.apache.org/docs/latest/running-on-yarn.html准备工作...原创 2020-02-20 20:27:34 · 8334 阅读 · 0 评论 -
Spark环境搭建——HA高可用模式
本篇博客,Alice为大家带来的是Spark的HA高可用环境搭建的教程。原理 Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一...原创 2020-02-20 10:28:43 · 9554 阅读 · 2 评论 -
Spark环境搭建——standalone集群模式
这篇博客,Alice为大家带来的是Spark集群环境搭建之——standalone集群模式。文章目录集群角色介绍集群规划修改配置并分发启动和停止查看web界面测试集群角色介绍 Spark是基于内存计算...原创 2020-02-19 21:49:41 · 8189 阅读 · 0 评论 -
Spark基础环境搭建——local本地模式
这篇博客,为大家带来的是关于Spark的环境搭建。Spark环境搭建 提前声明: 1.我们选择目前企业中使用...原创 2020-02-19 11:46:06 · 8471 阅读 · 0 评论 -
带你深入浅出,彻底了解什么是Spark?
大数据专业,或者人工智能,深度学习方向的小伙伴们一定对Spark这个名词不陌生吧~不认识也没有关系,今天Alice为大家带来关于Spark的一个详细介绍。文章目录激动人心的Spark发展史Spark为什么流行?1:优秀的数据模型和计算抽象2:完善的生态圈3.Spark VS HadoopSpark使...原创 2020-02-18 20:11:16 · 9633 阅读 · 2 评论 -
大数据技术原理与应用之【Spark】习题
1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。答:Spark具有如下4个主要特点:①运行速度快;②容易使用;③通用性;④运行模式多样。 2.Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark...原创 2019-12-15 19:15:06 · 15116 阅读 · 2 评论