自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 使用jupyter时报错:IOPub data rate exceeded.

本人在使用jupyter的时候,出现了一个错误:IOPub data rate exceeded.详细信息如下:处理这个问题很简单,只需要修改配置文件中的配置即可,接下来介绍一下解决方案。首先需要找到配置文件,在终端使用命令jupyter notebook --generate-config即可找到配置文件的存储路径,之后可以输入vim修改配置文件的内容:从异常信...

2020-04-30 17:15:36 6854

原创 初始spark(四)之spark存储管理

我们在使用spark进行数据相关的操作的时候,经常会用到的是RDD,但是我们也都知道RDD是一个抽象的数据集,并不是真正的数据存储的地方,RDD使我们对数据的操作更方便,其实RDD的出现避免了我们对数据存储底部的接触,可以更方便的编写我们的应用。其实数据的存储都是由spark的存储管理模块实现和管理的。spark存储管理模块的整体架构:从架构上可以将存储架构管理模块分为通信层和存储层两个部分。...

2020-04-29 15:44:02 244

原创 认识ETL

大数据中经常会遇到的一个概念就是ETL,接下来就来探讨一下ETLETL是指将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,主要的作用就是将企业的一些杂乱无章的数据进行一个汇总,为相关的企业提供数据的支持。ETL主要分为了三个阶段:数据抽取、数据清洗转换、数据的加载。数据的抽取:就是从原始的数据源中将数据抽取到ODS层。在数据抽取的时候,首先需要进行相关的调研,比如数据的存储...

2020-04-29 14:32:08 332

原创 初始spark(三)之宽窄依赖以及stage的划分

一:宽窄依赖的概念提起spark中涉及到的RDD,那么我们也会很容易的想到的问题是,RDD的一系列操作转化操作,转化操作其实就是将一个RDD转化为另一个RDD,那么在产生新的RDD和旧的RDD的关系就属于依赖关系,而RDD之间的依赖关系可以分为宽依赖和窄依赖两种依赖关系。窄依赖:具体的含义是指父RDD和子RDD之间的partition之间属于一对一的关系。也可以认为一个父RDD的parti...

2020-04-23 17:30:16 513

原创 初始spark(二)之RDD

我们都知道spark是能够并行的计算,并且是基于内存的,这大大的提升了计算的效率,spark在进行计算的时候,需要借助于SparkContext(驱动程序器),将数据分散到集群中,并在节点中并行的开启计算,最终再将计算的结果进行汇总。一:RDD提到数据计算,不得不提到spark中的一个重要的概念,那就是RDD(弹性分布式数据集),从名称来看便知RDD是分布在集群中的,spark计算主要是针...

2020-04-10 15:23:39 281

原创 初始spark(一)

spark定义: spark是一个实现快速通用的集群计算平台。通用内存并行计算框架,主要用来构建大型的、低延迟的数据分析应用程序。spark优点: 使用spark肯定有其特别之处,spark在计算数据的时候与MapReduce相比,spark的计算是基于内存的,并可以依赖内存机型复杂的计算,这在计算的速度上有大的提升,相比较MapReduce有很大的性能...

2020-04-10 15:18:39 119

mybatis与spring整合的jar包(含有springmvc)

此jar包主要用于SSM框架搭建过程中,整合框架的jar包,适合初学者在学习JAVA项目的时候,自己搭建SSM框架时使用。

2018-08-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除