Spark
文章平均质量分 85
Spark是一个基于内存(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。从Spark基础到原理 面试题层层深入讲解。
AIMaynor
个人博客:maynor1024.live,ai网站:api.maynor1024.live
展开
-
华为云云耀云服务器L实例评测|在Docker环境下部署Spark计算引擎
本博客将介绍在云耀云服务器L实例服务器下如何部署Docker容器Spark计算引擎。这是Maynor华为云云耀云服务器L实例评测|单节点环境下部署ClickHouse21.1.9.41数据库华为云云耀云服务器L实例评测|伪分布式环境下部署hadoop2.10.1华为云云耀云服务器L实例评测|在Docker环境下部署Hadoop华为云云耀云服务器L实例评测|在Docker环境下部署Hive数据库云耀云服务器L实例是新一代的轻量应用云服务器,专门为中小企业和开发者打造,提供开箱即用的便利性。原创 2023-09-21 12:00:00 · 155 阅读 · 1 评论 -
每天一道大厂SQL题【Day21】华泰证券真题实战(三)
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-04-17 10:03:06 · 1632 阅读 · 5 评论 -
每天一道大厂SQL题【Day18】腾讯外包(微信相关)真题实战(三)
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-03-24 18:55:52 · 237 阅读 · 0 评论 -
每天一道大厂SQL题【Day15】微众银行真题实战(五)
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-03-09 15:00:00 · 1130 阅读 · 0 评论 -
每天一道大厂SQL题【Day14】微众银行真题实战(四)
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-03-07 08:45:43 · 1316 阅读 · 1 评论 -
每天一道大厂SQL题【Day13】微众银行真题实战(三)
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-02-27 14:08:53 · 518 阅读 · 0 评论 -
每天一道大厂SQL题【Day12】微众银行真题实战(二)
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-02-22 20:30:00 · 2200 阅读 · 0 评论 -
每天一道大厂SQL题【Day10】电商分组TopK实战
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-02-15 16:00:00 · 2090 阅读 · 1 评论 -
每天一道大厂SQL题【Day09】充值日志SQL实战
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-02-13 15:00:00 · 1097 阅读 · 0 评论 -
每天一道大厂SQL题【Day08】服务日志SQL统计
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-02-10 19:15:00 · 773 阅读 · 1 评论 -
每天一道大厂SQL题【Day07】教育领域SQL实战
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!本题共有10道小题,有基础的小伙伴可直接从第8题开始写~原创 2023-02-09 00:00:00 · 1446 阅读 · 2 评论 -
每天一道大厂SQL题【Day05】活跃用户统计
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-02-05 09:00:00 · 1286 阅读 · 4 评论 -
每天一道大厂SQL题【Day04】大数据排序统计
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-02-03 15:30:00 · 1759 阅读 · 3 评论 -
每天一道大厂SQL题【Day03】订单量统计
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!原创 2023-02-02 08:00:00 · 1421 阅读 · 3 评论 -
Spark的广播变量
广播变量转载 2022-05-12 15:36:45 · 1020 阅读 · 0 评论 -
spark面试题总结
spark面试基础篇转载 2022-05-03 22:15:28 · 7806 阅读 · 0 评论 -
SparkDSL修改版之从csv文件读取数据并写入Mysql
电影评分数据分析原创 2022-04-04 21:36:47 · 1533 阅读 · 2 评论 -
Spark_Day01:Spark 框架概述和Spark 快速入门
Spark Day01:Spark 基础环境预习视频: https://www.bilibili.com/video/BV1uT4y1F7ap Spark:基于Scala语言Flink:基于Java语言01-[了解]-Spark 课程安排总的来说分为Spark 基础环境、Spark 离线分析和Spark实时分析三个大的方面,如下图所示:目前在企业中使用最多Spark框架中模块:Spa.原创 2021-07-24 11:46:46 · 581 阅读 · 1 评论 -
Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序
stypora-copy-images-to: imgtypora-root-url: ./Spark Day02:Spark 基础环境(二)Hadoop3.0-HDFS https://www.bilibili.com/video/BV1yX4y1K7LqHadoop3.0-MapReduce https://www.bilibili.com/video/BV1Tf4y167U8Hadoop3.0-yarn https://www.bilibili.com/video/BV1wh4.原创 2021-07-24 11:52:47 · 618 阅读 · 0 评论 -
【Spark】 Spark的基础环境 Day03
Spark Day03:Spark 基础环境02-[了解]-今日课程内容提纲主要讲解2个方面内容:Spark on YARN集群和RDD 是什么1、Spark on YARN 将Spark应用程序,提交运行到YARN集群上,企业中绝大多数运行模式,必须掌握 - 如何配置 - 提交应用运行 - Spark应用运行在集群上2种Deploy-Mode - yarn-client模式 - yarn-cluster模式2、RDD是什么 RDD,弹性分布式数据集,抽象概念,相当于集合,比如原创 2021-12-06 20:10:54 · 326 阅读 · 0 评论 -
【Spark】Spark Core Day04
Spark Day04:Spark Core02-[了解]-今日课程内容提纲主要讲解RDD函数,分为2类:Transformation转换函数和Action触发函数RDD中函数: - 函数分类,不同类型函数功能 - 常见函数概述 - 5种类型RDD函数 实际项目中使用最多的,必须要掌握 - RDD 持久化函数 可以将RDD分布式集合数据进行缓存,比如缓存到Executor内存中,再次处理数据时,直接从内存读取 - RDD Checkpoint 将RDD数据保存到可靠文件系原创 2021-12-06 20:19:54 · 1957 阅读 · 0 评论 -
Spark Day05:Spark Core之Sougou日志分析、外部数据源和共享变量
Spark Day05:Spark Core文章目录Spark Day05:Spark Core01-[了解]-内容回顾02-[了解]-内容提纲03-[掌握]-SogouQ日志分析之数据调研和业务分析04-[掌握]-SogouQ日志分析之HanLP 中文分词05-[掌握]-SogouQ日志分析之数据封装SogouRecord06-[掌握]-SogouQ日志分析之搜索关键词统计07-[掌握]-SogouQ日志分析之用户搜索点击统计08-[掌握]-SogouQ日志分析之搜索时间段统计09-[了解]-外部原创 2022-02-14 18:32:04 · 1576 阅读 · 0 评论 -
Spark Day06:Spark Core之Spark 内核调度和SparkSQL快速入门
文章目录Spark Day06:Spark Core01-[了解]-课程内容回顾02-[了解]-课程内容提纲03-[掌握]-Spark 内核调度之引例WordCount04-[掌握]-Spark 内核调度之RDD 依赖05-[掌握]-Spark 内核调度之DAG和Stage06-[了解]-Spark 内核调度之Spark Shuffle07-[掌握]-Spark 内核调度之Job 调度流程08-[掌握]-Spark 内核调度之Spark 基本概念09-[理解]-Spark 内核调度之并行度10-[掌握]-原创 2022-02-14 18:45:14 · 1374 阅读 · 0 评论 -
Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))
Spark Day07:Spark SQL主要讲解2个方面内容:Spark 调度内核和SparkSQL 快速体验。1、Spark 内核调度 讲解Spark框架如何对1个Job作业进行调度执行,将1个Job如何拆分为Task任务,放到Executor上执行。 【以大数据经典案例:词频统计WordCount】 - 每个Job是RDD Action函数触发,比如fo.原创 2021-07-25 09:26:06 · 756 阅读 · 1 评论 -
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
SparkSQL内部并没有实现从HBase读取数据接口,可以自己实现外部数据源接口,此处提供给大家。需要注册实现数据源* 自定义外部数据源HBase,实现数据读写功能。原创 2021-07-25 09:21:02 · 687 阅读 · 1 评论 -
【Spark Streaming】Spark Day10:Spark Streaming 学习笔记
Spark Day10:Spark Streaming01-[了解]-昨日课程内容回顾 实战练习:以DMP广告行业背景为例,处理广告点击数据,分为2个方面【广告数据ETL转换和业务报表开发】,具体说明如下:【前提】:使用SparkSQL完成案例练习,进行代码编写1、广告数据ETL转换 JSON文本数据 -> DataFrame:提取IP地址,解析转换为省份和城市 -> 保存到Hive分区表中 数据源 文件系统(HDFS、LocalFS)文本文件数据:JSON格式原创 2021-11-28 14:32:13 · 1144 阅读 · 0 评论 -
【Spark Streaming】Spark Day11:Spark Streaming 学习笔记
Spark Day11:Spark Streaming01-[了解]-昨日课程内容回顾主要讲解:Spark Streaming 模块快速入门1、Streaming 流式计算概述 - Streaming 应用场景 实时报表RealTime Report 实时增量ETL 实时预警和监控 实时搜索推荐 等等 - 大数据架构:Lambda架构 离线分析,实时计算 分为三层: - 批处理层,BatchLayer - 速度层,SpeedLayer - 服务原创 2021-11-28 15:33:56 · 485 阅读 · 0 评论 -
学习笔记:StructuredStreaming入门(十二)
2个方面内容:偏移量管理(Checkpoint检查点)和`StructuredStreaming`入门(新的流式计算模块)原创 2021-07-15 21:04:22 · 696 阅读 · 0 评论 -
【spark】什么是随机森林
1.什么是随机森林随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。 解读下上面的话: 1.随机森林属于集成算法,属于集成算法中的bagging,另一种就是boosting了,集成意味着着该算法是多个算法组合而成 2.随机森林是由决策树集成的,这个很好理解,单木为树,多木成林。所以它叫森林,所以你想弄明白什么是随机森林,就必须先整明白转载 2021-11-25 22:11:29 · 1076 阅读 · 0 评论 -
基于SparkSQL的电影分析项目实战
在本篇分享中,将介绍一个完整的项目案例,该案例会真实还原企业中SparkSQL的开发流程,手把手教你构建一个基于SparkSQL的分析系统。为了讲解方便,我会对代码进行拆解,完整的代码已上传至GitHub,想看完整代码可以去clone,顺便给个**Star**。以下是全文,希望本文对你有所帮助。看完记得三连:分享、点赞、在看https://github.com/jiamx/spark_project_practise项目介绍数据集介绍使用MovieLens的名称为ml-25m.zip的数据集,使用转载 2022-01-03 09:27:25 · 2554 阅读 · 1 评论 -
【spark2.x】如何通过SparkSQL读取csv文件
package cn.itcast.spark.sourceimport java.util.Propertiesimport org.apache.spark.sql.types.{DoubleType, IntegerType, LongType, StructType}import org.apache.spark.sql.{DataFrame, SparkSession}object _03SparkSQLSourceTest { def main(args: Array[Str原创 2021-11-25 21:30:37 · 2099 阅读 · 0 评论 -
SparkMllib介绍
SparkMllib介绍MLLIB是Spark的机器学习库。提供了利用Spark构建大规模和易用性的机器学习平台,组件:五大特性:1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法2-特征化:特征抽取、特征转换、特征选择、特征降维3-管道Pipeline:将数据处理或特征工程的流程按照管道的方式去串联4-持久化Persistence:保存模型,保存管道如何理解保存模型?原因就是不可能每次都去训练模型,而将已经训练好的模型进行保存,保存在本地或hdfs中,在本地或h.原创 2021-11-15 21:30:00 · 1071 阅读 · 0 评论 -
[Spark精进]必须掌握的4个RDD算子之flatMap算子
文章目录返回第二章第三个flatMap:从元素到集合、再从集合到元素点击跳转到下一讲返回第二章第三个flatMap:从元素到集合、再从集合到元素flatMap 其实和 map 与 mapPartitions 算子类似,在功能上,与 map 和 mapPartitions 一样,flatMap 也是用来做数据映射的,在实现上,对于给定映射函数 f,flatMap(f) 以元素为粒度,对 RDD 进行数据转换。不过,与前两者相比,flatMap 的映射函数 f 有着显著的不同。对于 map 和 mapPa原创 2021-09-24 16:48:55 · 1606 阅读 · 0 评论 -
[Spark精进]必须掌握的4个RDD算子之mapPartitions算子
文章目录返回第一章第二个mapPartitions:以数据分区为粒度的数据转换点击跳转到下一讲返回第一章第二个mapPartitions:以数据分区为粒度的数据转换按照介绍算子的惯例,我们还是先来说说 mapPartitions 的用法。mapPartitions,顾名思义,就是以数据分区为粒度,使用映射函数 f 对 RDD 进行数据转换。对于上述单词哈希值计数的例子,我们结合后面的代码,来看看如何使用 mapPartitions 来改善执行性能:// 把普通RDD转换为Paired RDD原创 2021-09-24 16:09:12 · 1020 阅读 · 0 评论 -
[Spark精进]必须掌握的4个RDD算子之map算子
第一个map以元素为粒度的数据转换我们先来说说 map 算子的用法:给定映射函数 f,map(f) 以元素为粒度对 RDD 做数据转换。其中 f 可以是带有明确签名的带名函数,也可以是匿名函数,它的形参类型必须与 RDD 的元素类型保持一致,而输出类型则任由开发者自行决定。我们使用如下代码,把包含单词的 RDD 转换成元素为(Key,Value)对的 RDD,后者统称为 Paired RDD。// 把普通RDD转换为Paired RDDval cleanWordRDD: RDD[String] =原创 2021-09-24 15:53:55 · 2848 阅读 · 4 评论 -
❤️Spark的常用算子大总结❤️
文章目录???? Transformation算子Value类型 ????1 、map(func)案例2、mapPartitions(func) 案例3、mapPartitionsWithIndex(func) 案例4、map()和mapPartition()的区别5、flatMap(func) 案例6、sortBy(func,[ascending], [numTasks]) 案例7、 groupBy(func)案例8、filter(func) 案例9、sample(withReplacement, fra原创 2021-09-10 09:38:15 · 309 阅读 · 0 评论 -
面试官嫌我Sql写的太low?要求我重写还加了三个需求?——二战Spark电影评分数据分析
文章目录引言数据介绍:使用的文件movies.csv和ratings.csv建表语句项目结构一览图由题意可知总结引言大家好,我是ChinaManor,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,一个平凡而不平庸的人。Spark综合练习——电影评分数据分析这是我的上篇博文,当时仅是做了一个实现案例(demo级别 ),没想到居然让我押中了题,还让我稳稳的及格了(这次测试试卷难度极大,考60分都能在班上排进前10)不过我在复盘的时候,发现自己的致命弱点:原创 2021-06-09 15:43:27 · 1203 阅读 · 16 评论 -
一道Spark练习题
Spark 支持的分布式部署方式中哪个是错误的?涉及的知识点(1)Local:运行在一台机器上,通常是练手或者测试环境。(2)Standalone:构建一个基于 Master+Slaves 的资源调度集群,Spark 任务提交给 Master 运行。是 Spark 自身的一个调度系统。(3)Yarn: Spark 客户端直接连接 Yarn, 不需要额外构建 Spark 集群。有 yarn-client 和yarn-cluster 两种模式,主要区别在于:Driver 程序的运行节点。(4)Me原创 2021-06-02 08:38:20 · 390 阅读 · 1 评论 -
Spark综合练习——电影评分数据分析
以上便是电影评分数据分析spark版,愿你读过之后有自己的收获,如果有收获不妨一键三连一下~原创 2021-05-31 23:28:58 · 9795 阅读 · 22 评论 -
Spark案例库V1.0版
Spark案例库案例一:使用SparkRDD实现词频统计pom.xml文件<repositories> <repository> <id>aliyun</id> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> </repository> <repository>原创 2021-05-24 22:31:32 · 1628 阅读 · 0 评论