阿卷啦-CSDN博客

转载 Spark-Stream Spark的流式处理（十八）

Spark-Stream Spark的流式处理「Spark从入门到精通系列」8.结构化流-Structured Streaming（下）

2022-01-10 21:10:11 255

转载 Spark-Stream Spark的流式处理（十七）

Spark-Stream Spark的流式处理「Spark从入门到精通系列」8.结构化流-Structured Streaming（中）

2022-01-10 21:08:46 202

原创 Spark-Stream Spark的流式处理（十六）

Spark-Stream 之 Structured Streaming初见在前面的章节中，我们学习了如何使用结构化API来处理数据规模巨大的有界数据。但是，数据经常连续到达并且需要实时处理。在本章中，我们将讨论如何将相同的结构化API来处理数据流。1、Apache Spark流处理引擎的演变流处理被定义为连续处理无穷无尽的数据流。随着大数据时代的到来，流处理系统已从单节点处理引擎过渡到多节点分布式处理引擎。传统的分布式流处理是用一个一次一记录的处理模型来实现的，如下图所示。处理管道由节

2022-01-10 21:07:15 2045

原创 SparkSQL 最详细的Spark SQL（十五）

spark sql 一.概述1 spark历史2 Spark-SQL 概述2.1 特点2.2 作用2.3 Spark SQL架构图 3 Dataset演进历史3.1 RDD3.1.1 优点3.1.2 缺点 3.2 DataFrame3.2.1 优点3.2.2 缺...

2022-01-03 17:25:55 3483

原创 SparkSQL 读写数据（十四）

Spark SQL 读写数据详解开始啦，和SparkCore不一样，现在我们现总结一下Spark SQL读写数据。一、前奏 SparkSession读取数据，可以直接使用spark.read.csv(“path”)，也可以使用spark.read.format(“csv”).load(“path”) spark.read.csv("data.csv") spark.read.format("csv").load("data.csv")read:创建一个DataFra

2021-12-30 20:21:42 1972

原创 SparkSQL 前讲篇（十三）

Spark SQL概述新的开始，也是新的高度，结束了SparkCore，现在我站在巨人的肩上，总结一下Spark SQL。先说一下，在SparkSQL对于算子可能不会再从源码详细的说，因为SparkCore和SparkSQL在算子上有很多相同之处，原理也是大同小异，熟悉了SparkCore的算子，那么Spark SQL算子也是相差无几，我们主要是对特殊存在的算子以及特殊的数据结构进行介绍。那，我们开始了？一、Spark SQL 发展。 Spark SQL主要是将数据转换为结构化的数据，然后进

2021-12-30 17:21:15 1502

原创最全面的文件操作-python

python操作文件压缩方式gz：即gzip。通常仅仅能压缩一个文件。与tar结合起来就能够实现先打包，再压缩。tar： linux系统下的打包工具。仅仅打包。不压缩tgz：即tar.gz。先用tar打包，然后再用gz压缩得到的文件zip：不同于gzip。尽管使用相似的算法，能够打包压缩多个文件。只是分别压缩文件。压缩率低于tar。rar：打包压缩文件。最初用于DOS，基于window操作系统。压缩率比zip高，但速度慢。随机访问的速度也慢。一、python解压文件import os

2021-12-28 21:14:37 102

原创 Spark PartitionerBy（十二）

Partitioner算子详解来源自：Spark RDD之Partitioner，尊重原创。前几天在总结重分区算子的时候漏了一个算子，今天看了一篇不错的关于Partitioner的文章，现再补上，同时也分享给大家。概述 Partitioner是shuffle过程中key重分区时的策略，即计算key决定k-v属于哪个分区，Transformation是宽依赖的算子时，父RDD和子RDD之间会进行shuffle操作，shuffle涉及到网络开销，由于父RDD和子RDD中的partition是多.

2021-12-27 21:10:14 277

原创 SparkCore 共享变量（十一）

共享变量详解新的一天，新的一篇，天天开心，篇篇收货。最近了大厂裁员，资本游戏频现，元宇宙越来越火，就业压力和失业风险齐头并进，让我们本就不富裕的生活雪上加霜。最近去深圳出差在飞机上看到一句话送给大家，“如同每个时代，都会出现击鼓传花的资本游戏，但是大家都信心满满，认为自己不会是最后倒霉的那个”，以此共勉我们心向光明，脚踏实地。...

2021-12-27 16:57:05 1257

原创 Spark-core 行动算子（十）

Action 算子详解上文我们讲过了常用的转换算子，本篇博客记录一下常用的行动算子，那我们开始啦。Action算子和transformations算子的区别transformations算子是惰性算子，也就是说它的触发条件不是代码执行到这，而是需要transformations算子的结果后才执行这个算子，transformations也为我们减少了很多非必要的开销。Action算子是一个触发计算的算子，我们知道Spark是由很多的任务组成，而一个Action便形成了一个新的任务，也及.

2021-12-26 21:12:13 771

原创 Spark-core 转换算子（九）

Transformations 算子详解二上一篇，我们主要分析了一下简单的转换算子，这里我们先分析一下常见的转换算子。 1、groupBy算子 groupBy算子如其名，分组算子。但是我们需要制定分组函数。它和groupByKey不同，groupByKey直接按照key分组。源码部分: def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] = withScope { grou

2021-12-21 14:22:10 967

原创 Spark-core 转换算子（八）

Transformations算子详解一上一篇我们宏观的分析了Transformations算子和Action算子，现在我们开始兄原理到源码逐个详细的分析算子。 1、Map算子源码：1、首先会执行第一个map函数，创建MapPartitionsRDD，2、然后内部调用第二个map函数，如一下map，很明显，A中的元素都被经过f作用后生成新的算子B/**Creates a new iterator that maps all produced values of this itera.

2021-12-07 23:06:15 1192

原创 Spark-Core之算子详解（七）

SparkCore 算子详解开始之前，先希望大家生活乐观，天天向上，没有风可以把温柔的人吹倒，真真的勇士总是敢于直面惨淡的人生，能屈能伸，自有一片天地。希望大家在为生活奔波的同时不忘初心，砥砺前行，永远能打倒困难。...

2021-12-06 22:24:18 1229

原创 Spark+hadoop读取数据源码

package com.jack.rdd.create;/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The

2021-12-01 21:57:01 1241

原创 Spark-核心数据集RDD（六）

SparkCore-核心数据集RDD 今天真是美好的一天啊，那我们开始吧，我们今天讲一下RDD，为什么要将RDD了，先说一下我，作为一枚标准的理工男，如果没有彻底弄明白一个东西，就去实操，那肯定是一脸懵逼的，即使瞎一道题目猫碰上死耗子，暂时有了正确结果，但是题目文件类型一变，那又将是懵逼树上懵逼果，懵逼树下你和我。还记得高中化学，1mol水分子=2mol氢原子+1mol氧原子,没有弄明白mol的我，为什么2+1=1？？？好吧就这样。因为初步我们的数据集都将是一个一个的RDD（这里我的理解是R.

2021-11-29 23:14:04 1162

原创 Spark-提交作业命令详解（五）

Spark作业提交命令详解上篇博客，我们讲完了最全面的WordCount实现方法，现在我们讲一讲任务的提交。有人可能觉得这一块起码得要和Spark框架一起说，但是呢，有的同学迫切需要提交下自己的小作业，感受一下服务器集群的魅力。那好呗，开始了哈。1、命令介绍啥话不说先看一组命令吧#submit.shCONF_DIR=//demoFileAPP_CONF=app.confspark-submit \ --class com.thinkenergy.AlarmApp \ --m

2021-11-24 23:34:16 1365

原创 spark-万物之源WordCount（四）

Spark实现WordCount的N种方法大家好啊，这里就不自我介绍了，我们说一下WordCount，也就是词频。大家可能在各种渠道学习数据处理都会是WordCount首当其冲，为什么呢？因为WordCount简单。但是可以很好的形容数据处理和数据统计。今天我们也跟风的讲一讲WordCount，但是呢？我们不是泛泛的讲讲，我们是抱着系统学习的态度开始的。因为实现WordCount的方法有很多，每一种方法都会让你有不同的收获。那就开始了哈。一、数据源。[root@host juana]# tou

2021-11-22 22:45:35 843

原创 spark-单机部署（三）

Spark的windows、linux单机部署1、windows单机部署相信大多数同学用的都是windows系统，没错，我也是windows系统，主要是因为公司电脑安装了深信服的办公软件，但是这个不支持linux系统，所有我们公司都强制被使用win10。为了调试方便，还是习惯在电脑上装上单机Spark，好在Spark也支持win10。废话不多说，我们开始哈。。。1.1、安装Java环境这里我们安装Java8，哎，这会是不是有同学问了现在Java15都有了我们为啥还用Java8了？❓❓❓

2021-11-18 23:22:16 2403

原创 spark-总览（二）

一、大数据概述各位各位，暂且听我胡扯一番啊,很快。1.1 大数据兴起的原因哈。我们每天都在生产数据，这里就不多bb了，文雅一点，原因如下： - 1. 存储成本的大幅下降。 - 2. 运行、计算速度的提升。 - 3. 脑力劳动的解放。 - 4.生产技术的提高。1.2 大数据兴起的原因哈。（注意这里是处理，不是分析哈）关于分析工具类似于hive我们之后在讲。1.mapreduce2.spark3.flink1.3Spark是什么？ Spark，是一种通

2021-11-17 23:12:20 172

原创 spark-总览（一）

分布式数据处理spark一、别人告诉我，总是要写点什么。入行已经很久了，开始总结，学习、工作以及为工作而生活的点点滴滴。刚入行，那时候我是一个菜鸟，身为自动化专业毕业生，世界一片奇妙，传感器采集的数据那么复杂，报文让人头疼欲裂，数据清洗、数据处理、数据展示好像很牛。大数据仿佛高大上，各种大数据组件、服务器、集群乱花渐欲，总之一个词:求知欲爆棚啊。讲讲我的入行？好的。那年是疫情的开始，我在家帮助老师做项目，一天一个同事告诉我老师让他看看集群，我第一次听到这个，很陌生，但是又很亲切。

2021-11-17 19:03:30 968

原创欲戴王冠，砥砺前行。

大家好我是马小云，最近迷茫看了的一篇励志博客 — 程序员的八荣八耻，深思、铭记，学习的道路不是一帆风顺，唯有坚持、用心。程序员的八荣八耻以粗制烂造为耻，以精益求精为荣。以简单模仿为耻，以创新发展为荣。以晦涩难读为耻，以易于维护为荣。以黏贴拷贝为耻，以复用重用为荣。以独占知识为耻，以经验分享为荣。以冲突对抗为耻，以团结协作为荣。以消极逃避为耻，以敬业爱岗为荣。以盲目追随为耻，以勤于思考为荣。要想做一个好的程序员,首先就应该有上进心,而有了上进心还不够,还需要有一个良好的学习习惯,还要看自己

2021-05-13 16:25:59 129

原创 git服务器搭建使用

1、git Git 是一个开源的分布式版本控制软件,用以有效、高速的处理从很小到非常大的项目版本管理。 Git 最初是由Linus Torvalds设计开发的，用于管理Linux内核开发。Git 是根据GNU通用公共许可证版本2的条款分发的自由/免费软件。2、github GitHub是一个基于Git的远程文件托管平台Git本身完全可以做到版本控制，但其所有内容以及版本记录只能保存在本机，如果想要将文件内容以及版本记录同时保存在远程，则需要结合GitHub来使用。使用场景：无GitHub：

2021-05-11 17:00:36 446 2