2020年04月_wangyangmingtian

08月 05月 04月

原创使用jupyter时报错：IOPub data rate exceeded.

本人在使用jupyter的时候，出现了一个错误：IOPub data rate exceeded.详细信息如下：处理这个问题很简单，只需要修改配置文件中的配置即可，接下来介绍一下解决方案。首先需要找到配置文件，在终端使用命令jupyter notebook --generate-config即可找到配置文件的存储路径，之后可以输入vim修改配置文件的内容：从异常信...

2020-04-30 17:15:36 6854

原创初始spark(四)之spark存储管理

我们在使用spark进行数据相关的操作的时候，经常会用到的是RDD，但是我们也都知道RDD是一个抽象的数据集，并不是真正的数据存储的地方，RDD使我们对数据的操作更方便，其实RDD的出现避免了我们对数据存储底部的接触，可以更方便的编写我们的应用。其实数据的存储都是由spark的存储管理模块实现和管理的。spark存储管理模块的整体架构：从架构上可以将存储架构管理模块分为通信层和存储层两个部分。...

2020-04-29 15:44:02 244

原创认识ETL

大数据中经常会遇到的一个概念就是ETL，接下来就来探讨一下ETLETL是指将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，主要的作用就是将企业的一些杂乱无章的数据进行一个汇总，为相关的企业提供数据的支持。ETL主要分为了三个阶段：数据抽取、数据清洗转换、数据的加载。数据的抽取：就是从原始的数据源中将数据抽取到ODS层。在数据抽取的时候，首先需要进行相关的调研，比如数据的存储...

2020-04-29 14:32:08 332

原创初始spark(三)之宽窄依赖以及stage的划分

一：宽窄依赖的概念提起spark中涉及到的RDD，那么我们也会很容易的想到的问题是，RDD的一系列操作转化操作，转化操作其实就是将一个RDD转化为另一个RDD，那么在产生新的RDD和旧的RDD的关系就属于依赖关系，而RDD之间的依赖关系可以分为宽依赖和窄依赖两种依赖关系。窄依赖：具体的含义是指父RDD和子RDD之间的partition之间属于一对一的关系。也可以认为一个父RDD的parti...

2020-04-23 17:30:16 513

原创初始spark（二）之RDD

我们都知道spark是能够并行的计算，并且是基于内存的，这大大的提升了计算的效率，spark在进行计算的时候，需要借助于SparkContext（驱动程序器），将数据分散到集群中，并在节点中并行的开启计算，最终再将计算的结果进行汇总。一：RDD提到数据计算，不得不提到spark中的一个重要的概念，那就是RDD（弹性分布式数据集），从名称来看便知RDD是分布在集群中的，spark计算主要是针...

2020-04-10 15:23:39 281

原创初始spark（一）

spark定义： spark是一个实现快速通用的集群计算平台。通用内存并行计算框架，主要用来构建大型的、低延迟的数据分析应用程序。spark优点：使用spark肯定有其特别之处，spark在计算数据的时候与MapReduce相比，spark的计算是基于内存的，并可以依赖内存机型复杂的计算，这在计算的速度上有大的提升，相比较MapReduce有很大的性能...

2020-04-10 15:18:39 119

mybatis与spring整合的jar包（含有springmvc）

此jar包主要用于SSM框架搭建过程中，整合框架的jar包，适合初学者在学习JAVA项目的时候，自己搭建SSM框架时使用。

2018-08-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 使用jupyter时报错：IOPub data rate exceeded.

原创 初始spark(四)之spark存储管理

原创 认识ETL

原创 初始spark(三)之宽窄依赖以及stage的划分

原创 初始spark（二）之RDD

原创 初始spark（一）