2019年01月_张伯毅

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Spark On Yarn VCore Userd 值不正常（DefaultResourceCalculator / DominantResourceCalculator ）

Spark On Yarn VCore Userd 值不正常，目前集群有两个任务再跑，每个任务使用1cores。在执行下面的脚本的时候。资源使用如下图：执行脚本： spark-submit \ --master yarn \ --deploy-mode cluster \ --class com.yss.aml.core.analysis...

2019-01-30 17:15:14 9046

原创 Hadoop2.7x 日志文件目录迁移（涉及组件：ZooKeeper、Spark、Hive、HBase、Oozie、Storm、Kafka）

1.本人使用的是ambari管理的hadoop2.7.3版本，由于/var目录空间有限，所以对hadoop的日志存放目录做迁移处理。操作：一、更改配置文件在这里一共要动以下几个文件（这些文件是ambari上显示的配置，如果是调整配置文件的话，请自行查找具体名称。）1.hadoop-env.xml Hadoop Log Dir Prefix /data/var...

2019-01-29 16:54:06 6705 3

原创 CentOS 7 迁移mysql5.7 数据存储目录

mysql默认的数据文档存储目录为/var/lib/mysql，但是/var空间有时会比较小，产导致磁盘满，无法正常操作数据库。需要将/var/lib/mysql迁移到其他大的目录，例如我要迁移到/data/var/lib目录下。 (使用root账户操作) 1.创建文件夹 /data/var/lib mkdir -p /data/var/libchmod 777...

2019-01-29 14:52:39 12010 2

原创 hadoop配置自动清理日志

hadoop在运行时间长了之后，日志文件，会占用很大，极端情况，会导致硬盘满。影响业务的正常运行。解决方式：步骤一、修改core-site.xml配置文件 <property> <name>hadoop.logfile.size</name> <value>10000000</va...

2019-01-28 17:54:55 16345 2

原创七、数据结构笔记：树、森林、二叉树的转换与查询

在介绍树的存储结构时，就说到了树的孩子兄弟表示法可以将一棵树用二叉链表进行存储，所以借助二叉链表，树和二叉树可以互相转换。从物理结构上来看，它们的二叉链表也是相同的，只是介绍不太一样而已。因此，只要我们设定一定的规则，用二叉树来表示树，甚至表示森林都是可以的，森林和二叉树也可以互相进行转换。树转换为二叉树将树转换为二叉树的步骤如下：加线：在所有的兄弟结点之间加一条连线； ...

2019-01-24 15:42:36 4596

原创六、数据结构笔记：树[四]（二叉树遍历）

二叉树遍历原理二叉树的遍历：是指从根结点出发，按照某种次序依次访问二叉树中的所有结点，使得每个结点被访问一次且仅被访问一次。这里有两个关键词：访问和次序。访问其实是要根据实际的需要来确定具体做什么，比如对每个结点进行相关计算，输出打印等。它算作是一个抽象操作。二叉树的遍历次序不同于线性结构，最多也就是从头到尾、循环和双向等简单的遍历方式。树的结点之间不存在唯一的前驱和后...

2019-01-24 14:33:37 4623

原创六、数据结构笔记：树[三]（二叉树存储结构）

数据结构——二叉树的存储结构之前已经谈过了树的存储结构，并且说到顺序存储对树这一种一对多的关系的结构实现起来比较困难。但是二叉树是一种特殊的树，由于它的特殊性，使得用顺序存储结构也可以实现。二叉树的顺序存储结构二叉树的顺序存储结构就是用一维数组存储二叉树中的结点，并且结点的存储位置，也就是数组的下标，要能体现结点之间的逻辑关系，如双亲与孩子的关系，左右兄弟的关系等。先来看完全二叉树...

2019-01-24 10:35:21 4577

原创六、数据结构笔记：树[二]（二叉树以及性质）

二叉树定义二叉树：是n（n>=0）个结点的有限集合，该集合或者为空集（称为空二叉树），或者由一个根结点和两棵互不相交的、分别称为根结点的左子树和右子树的二叉树组成。如下图就是一个二叉树：二叉树特点二叉树的特点有：每个结点最多两个子树，所以二叉树中不存在度大于2的结点。注意不是只有两棵子树，而是最多有。没有子树或者有一棵子树都是可以的。左子树和右子...

2019-01-23 23:50:04 5296

原创五、数据结构笔记：串 [二] ( KMP模式匹配算法 )

KMP模式匹配算法（朴素算法的升级版本）原理：主串 S： “abcdefgab”找到子串T “abcdex” 的位置如果采用朴素算法，前5个字母，两个串完全相等，直到第6个字母，"f"与“x”不等，如图如图，按照朴素模式匹配算法，应该是如图②③④⑤⑥。即主串S中当i = 2，3，4，5，6时，首字符与子串T的首字符俊不等。仔细观察，子串T “abcde...

2019-01-23 18:06:55 5551

原创六、数据结构笔记：树[一]（基本知识与存储方式）

树的定义之前一直介绍的是一对一的线性结构，可现实中还有多一对多的情况需要处理，这就是今天要介绍的一对多的数据结构——树。树（Tree）：是n（n>=0）个结点的有限集。n=0时称为空树。在任意一棵非空树中：有且仅有一个特定的称为根（Root）的结点；当n>1时，其余结点可分为m（m>0）个互不相交的有限集T1、T2、···、Tm，其中每一个集合本身又是一颗树，并且...

2019-01-23 04:02:20 5237

原创五、数据结构笔记：串 [一] (定义 & 朴素的模式匹配算法)

串的定义：是由零个或多个字符组成的有限序列，又叫字符串。一般记为 s=“a1a2a3...an"(n>=0)，其中，s是字符串的名称，用双引号括起来的字符序列是串的值，注意引号不属于串的内容。ai可以是字母、数字或者其他字符，i是该字符在串中的位置。串中的字符数目n称为串的长度，定义中谈到的有限是指长度n是一个有限的数值。零个字符的串称为空串，它的长度为0，可以直接用两个双引号...

2019-01-22 20:37:46 5274

原创四、数据结构笔记：栈与队列

栈（stack）：是限定仅在表尾进行插入和删除操作的线性表。队列（Queue）：是只允许在一端进行插入操作，而在另一端进行删除操作的线性表。定义栈（stack）：是限定仅在表尾进行插入和删除操作的线性表。我们允许插入和删除的一端称为栈顶（top），另一端称为栈底（bottom），不含任何数据元素的栈称为空栈。栈又称作后进先出（Last In First Out）的线性表。*...

2019-01-22 17:03:23 5205

原创三、数据结构笔记：线性表

线性表（List）：零个或多个数据元素的有限序列线性表，从名字上可以感觉到，是具有像线一样的性质的表。注意;首先它是一个序列。也就是说，元素之间是有序的，若元素存在多个，则第一个元素无前驱，最后一个元素无后继，其他每个元素有且只有一个前驱和后继。线性表强调有限，元素个数是有限的。其结构如下图：线性表元素的个数n（n≥0）定义为线性表的长度，当n...

2019-01-22 14:06:13 5629

原创二、数据结构笔记：算法

算法定义：解决特性问题求解步骤的描述，在计算机中表现为指令的有限序列，并且每条指令表示一个或多个操作。算法具有五个基本特性。输入算法具有零个或多个输入输出算法至少有一个或多个输出有穷性算法在执行有限的步骤之后，自动结束而不会出现无限循环，并且一个步骤在可接受的时间内完成。确定性算法的每一个步骤都具有确定的含义，...

2019-01-22 10:04:22 5188

原创一、数据结构笔记：绪论

基本概念&术语：数据结构是相互之间存在一种或多种特定关系的数据元素集合。数据结构是一门研究非数值计算的程序设计问题中的操作对象，以及他们之间的关系和操作等问题的学科。数据是描述客观事物的符号，是计算机中可以操作的对象，是能被计算机识别，并输入给计算机处理的符号集合。数据元素是组成数据的、有一定意义的基本单位，在计算机中通常作为...

2019-01-21 12:14:01 5385 1

翻译 Apache Hadoop 3.2.0 官方API常规：单节点安装

Hadoop：设置单节点群集。目的先决条件支持的平台必备软件安装软件下载准备启动Hadoop集群独立操作伪分布式操作组态设置passphraseless ssh 执行 YARN在单个节点上全分布式操作目的本文档介绍如何设置和配置单节点Hadoop安装，以便您可以使用Hadoop MapReduce和Hadoop分布式文件系...

2019-01-20 23:23:25 6067 1

翻译 Apache Hadoop 3.2.0 官方API常规：概览

Apache Hadoop 3.2.0Apache Hadoop 3.2.0在之前的稳定次要版本（hadoop-3.1）中包含了许多重要的增强功能。这是3.2版本系列中的第一个版本，尚未普遍可用（GA）或生产就绪。概观建议用户阅读完整的发行说明。此页面提供了主要更改的概述。YARN中的节点属性支持节点属性有助于根据节点标记节点上的多个标签，并支持根据这些标签的表达式放置容器...

2019-01-20 23:00:24 7935 2

原创 Spark2.3.2源码解析：（多线程）不中断线程（UninterruptibleThread ）

本文讲述，spark中的不中断线程的内容。直接看代码：UninterruptibleThread主要作用是重写 Thread类的interrupt方法，在执行thread.interrupt()方法的时候增加了一个判断uninterruptible（或者说是一个锁，在线程执行完成之后，通过finally进行释放），如果这个值为ture，打断不起作用。默认值false。 un...

2019-01-16 13:09:31 7390

转载 Spark RDD的默认分区数

spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置，则按照如下规则取值：本地模式（不会启动executor，由SparkSubmit进程生成指定数量的线程数来并发）： spark-shell spark.default.pa...

2019-01-04 09:58:05 7699

jdk-8u251-macosx/linux/windows 多版本下载

多版本JDK jdk-8u251-linux-x64.rpm jdk-8u251-linux-x64.tar.gz jdk-8u251-macosx-x64.dmg jdk-8u251-windows-i586.exe jdk-8u251-windows-x64.exe

2020-06-28

Flink基础教程.pdf

原版。高清，带页签。作为新一代的开源流处理器，Flink是众多大数据处理框架中一颗冉冉升起的新星。它以同一种技术支持流处理和批处理，并能同时满足高吞吐、低延迟和容错的需求。本书由Flink项目核心成员执笔，系统阐释Flink的适用场景、设计理念、功能、用途和性能优势

2019-05-28

数据结构与算法分析 java语言描述（原书第3版）中文PDF+源码+课后习题源码

2019-05-08

深入理解计算机系统（原书第3版）PDF 计算机科学丛书 [美] 兰德尔 E.布莱恩特

前言　　本书（简称CS:APP）的主要读者是计算机科学家、计算机工程师，以及那些想通过学习计算机系统的内在运作而能够写出更好程序的人。　　我们的目的是解释所有计算机系统的本质概念，并向你展示这些概念是如何实实在在地影响应用程序的正确性、性能和实用性的。其他的系统类书籍都是从构建者的角度来写的，讲述如何实现硬件或系统软件，包括操作系统、编译器和网络接口。而本书是从程序员的角度来写的，讲述应用程序员如何能够利用系统知识来编写出更好的程序。当然，学习一个计算机系统应该做些什么，是学习如何构建一个计算机系统的很好的出发点，所以，对于希望继续学习系统软硬件实现的人来说，本书也是一本很有价值的介绍性读物。大多数系统书籍还倾向于重点关注系统的某一个方面，比如：硬件架构、操作系统、编译器或者网络。本书则以程序员的视角统一覆盖了上述所有方面的内容。　　如果你研究和领会了这本书里的概念，你将开始成为极少数的“牛人”，这些“牛人”知道事情是如何运作的，也知道当事情出现故障时如何修复。你写的程序将能够更好地利用操作系统和系统软件提供的功能，对各种操作条件和运行时参数都能正确操作，运行起来更快，并能避免出现使程序容易受到网络攻击的缺陷。同时，你也要做好更深入探究的准备，研究像编译器、计算机体系结构、操作系统、嵌入式系统、网络互联和网络安全这样的高级题目。　　读者应具备的背景知识　　本书的重点是执行x86-64机器代码的系统。对英特尔及其竞争对手而言，x86-64是他们自1978年起，以8086微处理器为代表，不断进化的最新成果。按照英特尔微处理器产品线的命名规则，这类微处理器俗称为“x86”。随着半导体技术的演进，单芯片上集成了更多的晶体管，这些处理器的计算能力和内存容量有了很大的增长。在这个过程中，它们从处理16位字，发展到引入IA32处理器处理32位字，再到最近的x86-64处理64位字。　　我们考虑的是这些机器如何在Linux操作系统上运行C语言程序。Linux是众多继承自最初由贝尔实验室开发的Unix的操作系统中的一种。这类操作系统的其他成员包括Solaris、FreeBSD和MacOS X。近年来，由于Posix和标准Unix规范的标准化努力，这些操作系统保持了高度兼容性。因此，本书内容几乎直接适用于这些“类Unix”操作系统。　　文中包含大量已在Linux系统上编译和运行过的程序示例。我们假设你能访问一台这样的机器，并且能够登录，做一些诸如切换目录之类的简单操作。如果你的计算机运行的是Microsoft Windows系统，我们建议你选择安装一个虚拟机环境（例如VirtualBox或者VMWare），以便为一种操作系统（客户OS）编写的程序能在另一种系统（宿主OS）上运行。　　我们还假设你对C和C++有一定的了解。如果你以前只有Java经验，那么你需要付出更多的努力来完成这种转换，不过我们也会帮助你。Java和C有相似的语法和控制语句。不过，有一些C语言的特性（特别是指针、显式的动态内存分配和格式化I/O）在Java中都是没有的。所幸的是，C是一个较小的语言，在Brian Kernighan和Dennis Ritchie经典的“K&R”文献中得到了清晰优美的描述\[61\]。无论你的编程背景如何，都应该考虑将K&R作为个人系统藏书的一部分。如果你只有使用解释性语言的经验，如Python、Ruby或Perl，那么在使用本书之前，需要花费一些时间来学习C。　　本书的前几章揭示了C语言程序和它们相对应的机器语言程序之间的交互作用。机器语言示例都是用运行在x86-64处理器上的GNU GCC编译器生成的。我们不需要你以前有任何硬件、机器语言或是汇编语言编程的经验。　　给C语言初学者　　关于C编程语言的建议　　为了帮助C语言编程背景薄弱（或全无背景）的读者，我们在书中加入了这样一些专门的注释来突出C中一些特别重要的特性。我们假设你熟悉C++或Java。

2019-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

张伯毅的专栏

原创 Spark On Yarn VCore Userd 值不正常（DefaultResourceCalculator / DominantResourceCalculator ）

原创 Hadoop2.7x 日志文件目录迁移（涉及组件：ZooKeeper、Spark、Hive、HBase、Oozie、Storm、Kafka）

原创 CentOS 7 迁移mysql5.7 数据存储目录

原创 hadoop配置自动清理日志

原创七、数据结构笔记：树、森林、二叉树的转换与查询

原创六、数据结构笔记：树[四]（二叉树遍历）

原创六、数据结构笔记：树[三]（二叉树存储结构）

原创六、数据结构笔记：树[二]（二叉树以及性质）

原创五、数据结构笔记：串 [二] ( KMP模式匹配算法 )

原创六、数据结构笔记：树[一]（基本知识与存储方式）

原创五、数据结构笔记：串 [一] (定义 & 朴素的模式匹配算法)

原创四、数据结构笔记：栈与队列

原创三、数据结构笔记：线性表

原创二、数据结构笔记：算法

原创一、数据结构笔记：绪论

翻译 Apache Hadoop 3.2.0 官方API常规：单节点安装

翻译 Apache Hadoop 3.2.0 官方API常规：概览

原创 Spark2.3.2源码解析：（多线程）不中断线程（UninterruptibleThread ）

转载 Spark RDD的默认分区数

jdk-8u251-macosx/linux/windows 多版本下载

虚拟机上网环境设置.doc

《编译原理（第二版）》带书签.pdf

Flink基础教程.pdf

数据结构与算法分析 java语言描述（原书第3版）中文PDF+源码+课后习题源码

深入理解计算机系统（原书第3版）PDF 计算机科学丛书 [美] 兰德尔 E.布莱恩特

Java虚拟机规范（Java SE 8版）带书签

Hadoop权威指南：大数据的存储与分析(第4版)

HBase应用架构PDF版本

Thinking in UML(2 edition)

《谁说菜鸟不会数据分析》入门篇-简版电子书

[逻辑思维训练500题II].于雷.扫描版

空空如也

jdk-8u251-macosx/linux/windows 多版本下载

虚拟机上网环境设置.doc

《编译原理（第二版）》带书签.pdf

Flink基础教程.pdf

数据结构与算法分析 java语言描述（原书第3版）中文PDF+源码+课后习题源码

深入理解计算机系统（原书第3版）PDF 计算机科学丛书 [美] 兰德尔 E.布莱恩特

Java虚拟机规范（Java SE 8版） 带书签

Hadoop权威指南：大数据的存储与分析(第4版)

HBase应用架构PDF版本

Thinking in UML(2 edition)

《谁说菜鸟不会数据分析》入门篇-简版电子书

[逻辑思维训练500题II].于雷.扫描版

空空如也

Java虚拟机规范（Java SE 8版）带书签