自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 Spark-Stream Spark的流式处理(十八)

Spark-Stream Spark的流式处理 「Spark从入门到精通系列」8.结构化流-Structured Streaming(下)

2022-01-10 21:10:11 194

转载 Spark-Stream Spark的流式处理(十七)

Spark-Stream Spark的流式处理「Spark从入门到精通系列」8.结构化流-Structured Streaming(中)

2022-01-10 21:08:46 153

原创 Spark-Stream Spark的流式处理(十六)

Spark-Stream 之 Structured Streaming初见  在前面的章节中,我们学习了如何使用结构化API来处理数据规模巨大的有界数据。但是,数据经常连续到达并且需要实时处理。在本章中,我们将讨论如何将相同的结构化API来处理数据流。1、Apache Spark流处理引擎的演变  流处理被定义为连续处理无穷无尽的数据流。随着大数据时代的到来,流处理系统已从单节点处理引擎过渡到多节点分布式处理引擎。传统的分布式流处理是用一个一次一记录的处理模型来实现的,如下图所示。  处理管道由节

2022-01-10 21:07:15 1942

原创 SparkSQL 最详细的Spark SQL(十五)

spark sql 一.概述1 spark历史2 Spark-SQL 概述2.1 特点2.2 作用2.3 Spark SQL架构图 3 Dataset演进历史3.1 RDD3.1.1 优点3.1.2 缺点 3.2 DataFrame3.2.1 优点3.2.2 缺...

2022-01-03 17:25:55 3311

原创 SparkSQL 读写数据(十四)

Spark SQL 读写数据详解  开始啦,和SparkCore不一样,现在我们现总结一下Spark SQL读写数据。一、前奏  SparkSession读取数据,可以直接使用spark.read.csv(“path”),也可以使用spark.read.format(“csv”).load(“path”) spark.read.csv("data.csv") spark.read.format("csv").load("data.csv")read:创建一个DataFra

2021-12-30 20:21:42 1886

原创 SparkSQL 前讲篇(十三)

Spark SQL概述  新的开始,也是新的高度,结束了SparkCore,现在我站在巨人的肩上,总结一下Spark SQL。先说一下,在SparkSQL对于算子可能不会再从源码详细的说,因为SparkCore和SparkSQL在算子上有很多相同之处,原理也是大同小异,熟悉了SparkCore的算子,那么Spark SQL算子也是相差无几,我们主要是对特殊存在的算子以及特殊的数据结构进行介绍。那,我们开始了?一、Spark SQL 发展。  Spark SQL主要是将数据转换为结构化的数据,然后进

2021-12-30 17:21:15 1409

原创 最全面的文件操作-python

python操作文件压缩方式gz: 即gzip。通常仅仅能压缩一个文件。与tar结合起来就能够实现先打包,再压缩。tar: linux系统下的打包工具。仅仅打包。不压缩tgz:即tar.gz。先用tar打包,然后再用gz压缩得到的文件zip: 不同于gzip。尽管使用相似的算法,能够打包压缩多个文件。只是分别压缩文件。压缩率低于tar。rar:打包压缩文件。最初用于DOS,基于window操作系统。压缩率比zip高,但速度慢。随机访问的速度也慢。一、python解压文件import os

2021-12-28 21:14:37 69

原创 Spark PartitionerBy(十二)

Partitioner算子详解 来源自:Spark RDD之Partitioner,尊重原创。前几天在总结重分区算子的时候漏了一个算子,今天看了一篇不错的关于Partitioner的文章,现再补上,同时也分享给大家。概述  Partitioner是shuffle过程中key重分区时的策略,即计算key决定k-v属于哪个分区,Transformation是宽依赖的算子时,父RDD和子RDD之间会进行shuffle操作,shuffle涉及到网络开销,由于父RDD和子RDD中的partition是多.

2021-12-27 21:10:14 225

原创 SparkCore 共享变量(十一)

共享变量详解   新的一天,新的一篇,天天开心,篇篇收货。最近了大厂裁员,资本游戏频现,元宇宙越来越火,就业压力和失业风险齐头并进,让我们本就不富裕的生活雪上加霜。最近去深圳出差在飞机上看到一句话送给大家,“如同每个时代,都会出现击鼓传花的资本游戏,但是大家都信心满满,认为自己不会是最后倒霉的那个”,以此共勉我们心向光明,脚踏实地。...

2021-12-27 16:57:05 1204

原创 Spark-core 行动算子(十)

Action 算子详解   上文我们讲过了常用的转换算子,本篇博客记录一下常用的行动算子,那我们开始啦。Action算子和transformations算子的区别transformations算子是惰性算子,也就是说它的触发条件不是代码执行到这,而是需要transformations算子的结果后才执行这个算子,transformations也为我们减少了很多非必要的开销。Action算子是一个触发计算的算子,我们知道Spark是由很多的任务组成,而一个Action便形成了一个新的任务,也及.

2021-12-26 21:12:13 679

原创 Spark-core 转换算子(九)

Transformations 算子详解 二  上一篇,我们主要分析了一下简单的转换算子,这里我们先分析一下常见的转换算子。 1、groupBy算子   groupBy算子如其名,分组算子。但是我们需要制定分组函数。它和groupByKey不同,groupByKey直接按照key分组。源码部分: def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] = withScope { grou

2021-12-21 14:22:10 913

原创 Spark-core 转换算子(八)

Transformations算子详解 一  上一篇我们宏观的分析了Transformations算子和Action算子,现在我们开始兄原理到源码逐个详细的分析算子。 1、Map算子 源码:1、首先会执行第一个map函数,创建MapPartitionsRDD,2、然后内部调用第二个map函数,如一下map,很明显,A中的元素都被经过f作用后生成新的算子B/**Creates a new iterator that maps all produced values of this itera.

2021-12-07 23:06:15 1147

原创 Spark-Core之算子详解(七)

SparkCore 算子详解   开始之前,先希望大家生活乐观,天天向上,没有风可以把温柔的人吹倒,真真的勇士总是敢于直面惨淡的人生,能屈能伸,自有一片天地。希望大家在为生活奔波的同时不忘初心,砥砺前行,永远能打倒困难。...

2021-12-06 22:24:18 1162

原创 Spark+hadoop读取数据源码

package com.jack.rdd.create;/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The

2021-12-01 21:57:01 1193

原创 Spark-核心数据集RDD(六)

SparkCore-核心数据集RDD  今天真是美好的一天啊,那我们开始吧,我们今天讲一下RDD,为什么要将RDD了,先说一下我,作为一枚标准的理工男,如果没有彻底弄明白一个东西,就去实操,那肯定是一脸懵逼的,即使瞎一道题目猫碰上死耗子,暂时有了正确结果,但是题目文件类型一变,那又将是懵逼树上懵逼果,懵逼树下你和我。还记得高中化学,1mol水分子=2mol氢原子+1mol氧原子,没有弄明白mol的我,为什么2+1=1???  好吧 就这样。因为初步我们的数据集都将是一个一个的RDD(这里我的理解是R.

2021-11-29 23:14:04 1093

原创 Spark-提交作业命令详解(五)

Spark作业提交命令详解  上篇博客,我们讲完了最全面的WordCount实现方法,现在我们讲一讲任务的提交。有人可能觉得这一块起码得要和Spark框架一起说,但是呢,有的同学迫切需要提交下自己的小作业,感受一下服务器集群的魅力。那好呗,开始了哈。1、命令介绍啥话不说先看一组命令吧#submit.shCONF_DIR=//demoFileAPP_CONF=app.confspark-submit \ --class com.thinkenergy.AlarmApp \ --m

2021-11-24 23:34:16 1289

原创 spark-万物之源WordCount(四)

Spark实现WordCount的N种方法  大家好啊,这里就不自我介绍了,我们说一下WordCount,也就是词频。大家可能在各种渠道学习数据处理都会是WordCount首当其冲,为什么呢?因为WordCount简单。但是可以很好的形容数据处理和数据统计。今天我们也跟风的讲一讲WordCount,但是呢?我们不是泛泛的讲讲,我们是抱着系统学习的态度开始的。因为实现WordCount的方法有很多,每一种方法都会让你有不同的收获。那就开始了哈。一、数据源。[root@host juana]# tou

2021-11-22 22:45:35 802

原创 spark-单机部署(三)

Spark的windows、linux单机部署1、windows单机部署  相信大多数同学用的都是windows系统,没错,我也是windows系统,主要是因为公司电脑安装了深信服的办公软件,但是这个不支持linux系统,所有我们公司都强制被使用win10。为了调试方便,还是习惯在电脑上装上单机Spark,好在Spark也支持win10。废话不多说,我们开始哈。。。1.1、安装Java环境  这里我们安装Java8,哎,这会是不是有同学问了现在Java15都有了我们为啥还用Java8了?❓❓❓

2021-11-18 23:22:16 2283

原创 spark-总览(二)

一、大数据概述     各位各位,暂且听我胡扯一番啊,很快。1.1 大数据兴起的原因哈。 我们每天都在生产数据,这里就不多bb了,文雅一点,原因如下: - 1. 存储成本的大幅下降。 - 2. 运行、计算速度的提升。 - 3. 脑力劳动的解放。 - 4.生产技术的提高。1.2 大数据兴起的原因哈。 (注意这里是处理,不是分析哈)关于分析工具类似于hive我们之后在讲。1.mapreduce2.spark3.flink1.3Spark是什么? Spark,是一种通

2021-11-17 23:12:20 132

原创 spark-总览(一)

分布式数据处理spark一、别人告诉我,总是要写点什么。  入行已经很久了,开始总结,学习、工作以及为工作而生活的点点滴滴。  刚入行,那时候我是一个菜鸟,身为自动化专业毕业生,世界一片奇妙,传感器采集的数据那么复杂,报文让人头疼欲裂,数据清洗、数据处理、数据展示好像很牛。大数据仿佛高大上,各种大数据组件、服务器、集群乱花渐欲,总之一个词:求知欲爆棚啊。  讲讲我的入行?好的。  那年是疫情的开始,我在家帮助老师做项目,一天一个同事告诉我老师让他看看集群,我第一次听到这个,很陌生,但是又很亲切。

2021-11-17 19:03:30 933

原创 欲戴王冠,砥砺前行。

 大家好我是马小云,最近迷茫看了的一篇励志博客 — 程序员的八荣八耻,深思、铭记,学习的道路不是一帆风顺,唯有坚持、用心。程序员的八荣八耻    以粗制烂造为耻,以精益求精为荣。以简单模仿为耻,以创新发展为荣。以晦涩难读为耻,以易于维护为荣。以黏贴拷贝为耻,以复用重用为荣。以独占知识为耻,以经验分享为荣。以冲突对抗为耻,以团结协作为荣。以消极逃避为耻,以敬业爱岗为荣。以盲目追随为耻,以勤于思考为荣。  要想做一个好的程序员,首先就应该有上进心,而有了上进心还不够,还需要有一个良好的学习习惯,还要看自己

2021-05-13 16:25:59 98

原创 git服务器搭建使用

1、git  Git 是一个开源的分布式版本控制软件,用以有效、高速的处理从很小到非常大的项目版本管理。 Git 最初是由Linus Torvalds设计开发的,用于管理Linux内核开发。Git 是根据GNU通用公共许可证版本2的条款分发的自由/免费软件。2、github  GitHub是一个基于Git的远程文件托管平台Git本身完全可以做到版本控制,但其所有内容以及版本记录只能保存在本机,如果想要将文件内容以及版本记录同时保存在远程,则需要结合GitHub来使用。使用场景:无GitHub:

2021-05-11 17:00:36 334 2

原创 我的第一篇博客

 大家好,我是马小云,来博客这么久了,这是我的第一篇博客,也是我学习道路上的一个新的开始。 现在我是大四,实习阶段,即将投入正式工作,但是我已经是实习工作了将近一年的职场菜鸟了啦,目前专注于大数据方向,每天我都渴望进步,每天也都在探索,我相信未来可期。  加油加油!!!...

2021-05-11 15:31:00 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除