- 博客(19)
- 资源 (13)
- 收藏
- 关注
原创 Spark On Yarn VCore Userd 值不正常(DefaultResourceCalculator / DominantResourceCalculator )
Spark On Yarn VCore Userd 值不正常,目前集群有两个任务再跑,每个任务使用1cores。在执行下面的脚本的时候。资源使用如下图: 执行脚本: spark-submit \ --master yarn \ --deploy-mode cluster \ --class com.yss.aml.core.analysis...
2019-01-30 17:15:14 9046
原创 Hadoop2.7x 日志文件目录迁移(涉及组件:ZooKeeper、Spark、Hive、HBase、Oozie、Storm、Kafka)
1.本人使用的是ambari管理的hadoop2.7.3版本,由于/var目录空间有限,所以对hadoop的日志存放目录做迁移处理。 操作:一、更改配置文件在这里一共要动以下几个文件(这些文件是ambari上显示的配置,如果是调整配置文件的话,请自行查找具体名称。)1.hadoop-env.xml Hadoop Log Dir Prefix /data/var...
2019-01-29 16:54:06 6705 3
原创 CentOS 7 迁移mysql5.7 数据存储目录
mysql默认的数据文档存储目录为/var/lib/mysql,但是/var空间有时会比较小,产导致磁盘满,无法正常操作数据库。需要将/var/lib/mysql迁移到其他大的目录, 例如我要迁移到/data/var/lib目录下。 (使用root账户操作) 1.创建文件夹 /data/var/lib mkdir -p /data/var/libchmod 777...
2019-01-29 14:52:39 12010 2
原创 hadoop配置自动清理日志
hadoop在运行时间长了之后,日志文件,会占用很大,极端情况,会导致硬盘满。影响业务的正常运行。解决方式: 步骤一、修改core-site.xml配置文件 <property> <name>hadoop.logfile.size</name> <value>10000000</va...
2019-01-28 17:54:55 16345 2
原创 七、数据结构笔记:树、森林、二叉树的转换与查询
在介绍树的存储结构时,就说到了树的孩子兄弟表示法可以将一棵树用二叉链表进行存储,所以借助二叉链表,树和二叉树可以互相转换。从物理结构上来看,它们的二叉链表也是相同的,只是介绍不太一样而已。因此,只要我们设定一定的规则,用二叉树来表示树,甚至表示森林都是可以的,森林和二叉树也可以互相进行转换。树转换为二叉树将树转换为二叉树的步骤如下: 加线:在所有的兄弟结点之间加一条连线; ...
2019-01-24 15:42:36 4596
原创 六、数据结构笔记:树[四]( 二叉树遍历)
二叉树遍历原理 二叉树的遍历:是指从根结点出发,按照某种次序依次访问二叉树中的所有结点,使得每个结点被访问一次且仅被访问一次。 这里有两个关键词:访问和次序。访问其实是要根据实际的需要来确定具体做什么,比如对每个结点进行相关计算,输出打印等。它算作是一个抽象操作。二叉树的遍历次序不同于线性结构,最多也就是从头到尾、循环和双向等简单的遍历方式。树的结点之间不存在唯一的前驱和后...
2019-01-24 14:33:37 4623
原创 六、数据结构笔记:树[三]( 二叉树存储结构 )
数据结构——二叉树的存储结构之前已经谈过了树的存储结构,并且说到顺序存储对树这一种一对多的关系的结构实现起来比较困难。但是二叉树是一种特殊的树,由于它的特殊性,使得用顺序存储结构也可以实现。二叉树的顺序存储结构二叉树的顺序存储结构就是用一维数组存储二叉树中的结点,并且结点的存储位置,也就是数组的下标,要能体现结点之间的逻辑关系,如双亲与孩子的关系,左右兄弟的关系等。先来看完全二叉树...
2019-01-24 10:35:21 4577
原创 六、数据结构笔记:树[二]( 二叉树以及性质)
二叉树定义二叉树:是n(n>=0)个结点的有限集合,该集合或者为空集(称为空二叉树),或者由一个根结点和两棵互不相交的、分别称为根结点的左子树和右子树的二叉树组成。如下图就是一个二叉树: 二叉树特点二叉树的特点有: 每个结点最多两个子树,所以二叉树中不存在度大于2的结点。注意不是只有两棵子树,而是最多有。没有子树或者有一棵子树都是可以的。 左子树和右子...
2019-01-23 23:50:04 5296
原创 五、数据结构笔记:串 [二] ( KMP模式匹配算法 )
KMP模式匹配算法 (朴素算法的升级版本)原理:主串 S: “abcdefgab”找到 子串T “abcdex” 的位置如果采用朴素算法,前5个字母,两个串完全相等,直到第6个字母,"f"与“x”不等,如图如图,按照朴素模式匹配算法,应该是如图②③④⑤⑥。即主串S中当i = 2,3,4,5,6时,首字符与子串T的首字符俊不等。仔细观察,子串T “abcde...
2019-01-23 18:06:55 5551
原创 六、数据结构笔记:树[一](基本知识与存储方式)
树的定义之前一直介绍的是一对一的线性结构,可现实中还有多一对多的情况需要处理,这就是今天要介绍的一对多的数据结构——树。树(Tree):是n(n>=0)个结点的有限集。n=0时称为空树。在任意一棵非空树中:有且仅有一个特定的称为根(Root)的结点; 当n>1时,其余结点可分为m(m>0)个互不相交的有限集T1、T2、···、Tm,其中每一个集合本身又是一颗树,并且...
2019-01-23 04:02:20 5237
原创 五、数据结构笔记:串 [一] (定义 & 朴素的模式匹配算法)
串的定义:是由零个或多个字符组成的有限序列,又叫字符串。 一般记为 s=“a1a2a3...an"(n>=0),其中,s是字符串的名称,用双引号括起来的字符序列是串的值,注意引号不属于串的内容。ai可以是字母、数字或者其他字符,i是该字符在串中的位置。串中的字符数目n称为串的长度,定义中谈到的有限是指长度n是一个有限的数值。零个字符的串称为空串,它的长度为0,可以直接用两个双引号...
2019-01-22 20:37:46 5274
原创 四、数据结构笔记:栈与队列
栈(stack):是限定仅在表尾进行插入和删除操作的线性表。队列(Queue):是只允许在一端进行插入操作,而在另一端进行删除操作的线性表。定义栈(stack):是限定仅在表尾进行插入和删除操作的线性表。我们允许插入和删除的一端称为栈顶(top),另一端称为栈底(bottom),不含任何数据元素的栈称为空栈。栈又称作后进先出(Last In First Out)的线性表。*...
2019-01-22 17:03:23 5205
原创 三、数据结构笔记:线性表
线性表(List):零个或多个数据元素的有限序列 线性表,从名字上可以感觉到,是具有像线一样的性质的表。注意;首先它是一个序列。也就是说,元素之间是有序的,若元素存在多个,则第一个元素无前驱,最后一个元素无后继,其他每个元素有且只有一个前驱和后继。 线性表强调有限,元素个数是有限的。其结构如下图: 线性表元素的个数n(n≥0)定义为线性表的长度,当n...
2019-01-22 14:06:13 5629
原创 二、数据结构笔记: 算法
算法定义: 解决特性问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。 算法具有五个基本特性。输入 算法具有零个或多个输入 输出 算法至少有一个或多个输出 有穷性 算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且一个步骤在可接受的时间内完成。 确定性 算法的每一个步骤都具有确定的含义,...
2019-01-22 10:04:22 5188
原创 一、数据结构笔记: 绪论
基本概念&术语: 数据结构是相互之间存在一种或多种特定关系的数据元素集合。数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及他们之间的关系和操作等问题的学科。 数据 是描述客观事物的符号,是计算机中可以操作的对象,是能被计算机识别,并输入给计算机处理的符号集合。 数据元素 是组成数据的、有一定意义的基本单位,在计算机中通常作为...
2019-01-21 12:14:01 5385 1
翻译 Apache Hadoop 3.2.0 官方API常规 :单节点安装
Hadoop:设置单节点群集。目的 先决条件 支持的平台 必备软件 安装软件 下载 准备启动Hadoop集群 独立操作 伪分布式操作 组态 设置passphraseless ssh 执行 YARN在单个节点上 全分布式操作目的本文档介绍如何设置和配置单节点Hadoop安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系...
2019-01-20 23:23:25 6067 1
翻译 Apache Hadoop 3.2.0 官方API常规 : 概览
Apache Hadoop 3.2.0Apache Hadoop 3.2.0在之前的稳定次要版本(hadoop-3.1)中包含了许多重要的增强功能。这是3.2版本系列中的第一个版本,尚未普遍可用(GA)或生产就绪。概观建议用户阅读完整的发行说明。此页面提供了主要更改的概述。YARN中的节点属性支持节点属性有助于根据节点标记节点上的多个标签,并支持根据这些标签的表达式放置容器...
2019-01-20 23:00:24 7935 2
原创 Spark2.3.2源码解析:(多线程)不中断线程 (UninterruptibleThread )
本文讲述,spark中的不中断线程的内容。直接看代码:UninterruptibleThread主要作用是重写 Thread类的interrupt方法,在执行thread.interrupt()方法的时候增加了一个判断uninterruptible(或者说是一个锁,在线程执行完成之后,通过finally进行释放),如果这个值为ture,打断不起作用。默认值false。 un...
2019-01-16 13:09:31 7390
转载 Spark RDD的默认分区数
spark.default.parallelism:(默认的并发数) 如果配置文件spark-default.conf中没有显示的配置,则按照如下规则取值: 本地模式(不会启动executor,由SparkSubmit进程生成指定数量的线程数来并发): spark-shell spark.default.pa...
2019-01-04 09:58:05 7699
jdk-8u251-macosx/linux/windows 多版本下载
2020-06-28
Flink基础教程.pdf
2019-05-28
深入理解计算机系统(原书第3版)PDF 计算机科学丛书 [美] 兰德尔 E.布莱恩特
2019-03-08
Java虚拟机规范(Java SE 8版) 带书签
2018-10-26
Thinking in UML(2 edition)
2014-06-24
《谁说菜鸟不会数据分析》入门篇-简版电子书
2014-06-24
[逻辑思维训练500题II].于雷.扫描版
2014-06-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人