柳小葱的spark之路
文章平均质量分 95
本专栏主要记录和学习spark的相关知识
柳小葱
北京市某高校管理科学与工程专业的学生,主要研究方向是人工智能与大数据,二进宫字节,曾担任字节跳动大数据开发实习生、滴滴出行数据研发及分析实习生,目前已获数据库系统工程师(软考中级)、阿里云大数据助理工程师(ACA)证书。欢迎大家一起学习和交流!
展开
-
spark学习之作业优化
💅在前面的spark优化学习中,我们学习了spark的语法、资源调度、sql语法优化和数据倾斜的技巧,今天我们来学习spark中的作业优化,也就是job优化。对往期内容感兴趣的同学可以参考👇:链接: spark学习之处理数据倾斜.链接: spark学习之sparksql语法优化.链接: spark学习之资源调度.链接: spark学习之执行计划explain.hadoop专题: hadoop系列文章.spark专题: spark系列文章.flink专题: Flink系列文章.🙈关于spa原创 2022-04-07 16:53:11 · 1022 阅读 · 1 评论 -
spark学习之处理数据倾斜
大数据面试,遇见数据倾斜不会答?最全的数据倾斜总结来教你如何解决它。原创 2022-03-27 21:16:39 · 3022 阅读 · 6 评论 -
spark学习之sparksql语法优化
🐹上一章的学习中,我们学习了spark的资源调度进行了学习,今天我们要学习的内容是sparksql语法优化部分,对往期内容感兴趣的同学可以参考👇:上一篇: spark学习之资源调度.上一篇: spark学习之执行计划explain.hadoop专题: hadoop系列文章.spark专题: spark系列文章.flink专题: Flink系列文章.🌱sparksql在大数据开发中使用较多,也是优化较好的处理数据的方式,在对spark的优化过程中,百分之50的优化都是对sql的优化,由此可见s原创 2022-03-26 11:02:43 · 3431 阅读 · 3 评论 -
spark学习之资源调度
本文主要介绍从spark的内存、持久化、cpu的角度介绍spark的资源调度的情况。原创 2022-03-25 12:33:02 · 2504 阅读 · 5 评论 -
spark学习之执行计划explain
本文主要介绍了spark的执行计划explain的使用方法,以及对逻辑执行计划和物理执行计划进行了说明,让大家更加了解spark的运行原理。原创 2022-03-23 21:52:15 · 6057 阅读 · 2 评论 -
spark学习之并行度、并发、core数和分区的关系
👊上次的百度面试遇到了关于spark的并发数的问题,今天我们就来将这些问题都一并解决一下:链接: 2022百度大数据开发工程师实习面试经历.🍀我将先对并行和并发的基本定义开始讲起,然后介绍spark中是如何控制并行和并发的,以及这些和cpu核数、分区数有何关系。1.并行和并发并行:并发:...原创 2022-03-03 13:47:52 · 6988 阅读 · 5 评论 -
Spark之RDD的使用(pyspark版)
????上次写完rdd的介绍,有同学强烈介意用一些代码来展示一下rdd,好今天我们就如你所愿,我们今天就来以代码的方式给大家讲解一下rdd吧,对以往内容感兴趣的同学可以查看下面????:链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之Dataframe基本操作.链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之核心架构.链接: Spark之RDD算子.????今天主要讲解一下rdd的大致情况,以及目前的使用场景,然后就是掩饰怎么使用pytho原创 2021-09-01 23:00:54 · 1635 阅读 · 1 评论 -
Spark之RDD算子
今天出一期spark系列的硬货,即RDD算子,所谓算子,就是对某些事物的操作,或者说是方法。本期主要介绍几十个RDD算子,根据他们的特点,逐一进行介绍,有关spark的往期内容大家可以查看下面的内容????:链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之Dataframe基本操作.链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之核心架构.记得我们前面说过,saprk存在着惰性评估的机制,所谓惰性评估,就是等到绝对需要时才执行计算。当用户表达原创 2021-08-11 11:16:12 · 1801 阅读 · 4 评论 -
Spark之核心架构
????前面我们介绍了一些pyspark的基础指令集,但是对spark的核心架构了解还不够透彻,今天我们就来介绍一些spark的核心架构,以及一些基本概念,对以前内容感兴趣的小伙伴可以查看????:链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之Dataframe基本操作.链接: Spark之处理布尔、数值和字符串类型的数据.今天我们来介绍一下spark的一些运行原理、架构、组成部分。1.spark运行架构spark框架的核心是一个计算引擎,整体来说,它采用了标准的原创 2021-06-11 19:53:32 · 3509 阅读 · 23 评论 -
Spark之正则表达式与处理日期与时间类型
????今天继续给大家介绍pyspark的内容之匹配字符和处理时间类型的数据,我们在前面还给大家介绍了spark处理其他类型数据的方法,有兴趣的小伙伴可以查看下面文章????:链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之Dataframe基本操作.????今天主要来学习spark在字符串中搜索子串,替换被选中的字符等,以及处理时间类型数据的方法,尤其是对时间序列的处理在后面机器学习的部分有很大的帮助。目录1.正则表达式1.1 regexp_replace 替换值1.原创 2021-05-27 15:36:57 · 3348 阅读 · 13 评论 -
Spark之处理布尔、数值和字符串类型的数据
☀️上次我们介绍了spark的基本知识和dataframe的技巧,感兴趣的小伙伴可以查看以下内容????:Spark之Dataframe基本操作: spark之dataframe.Hadoop之spark浅析.: spark浅析.????今天我们来学习Spark对不同数据类型的操作,主要有布尔类型、数值类型和字符串类型。1.转化成spark类型为什么要转化为spark类型?这是因为我们导入数据到spark后,spark并不认识这些类型,我们需要使用lit这个函数来将其他语言的类型转换为为之对应原创 2021-05-19 09:06:35 · 1979 阅读 · 6 评论 -
Spark之Dataframe基本操作
????昨天介绍了spark的大致内容,今天来介绍spark中极为重要的结构Dataframe以及一系列的操作,本文也可以叫做pyspark教程,有兴趣的同学可以查看昨天的文章????:Spark浅析: Hadoop之spark浅析.????今天我们来学习Spark的Dataframe类型,这一章节很重要,包括dataframe的增删改查,抽样和分割等操作。这里写目录标题1.Dataframe1.1 Dataframe的定义1.2 Dataframe的模式2.列2.1 引用列2.2 列作为表达式2原创 2021-05-15 16:17:20 · 8479 阅读 · 2 评论