自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 MapReduce过程中的优化

1.增大环形缓冲区的容量(默认100M)或者提高溢写的阈值,可以减少溢写到磁盘的次数。2.增大每次归并的文件个数(默认为10个),可以减少归并的次数。3.归并的过程中,可以对数据进行合并,前提是合并操作不会影响最终的业务逻辑。4.为了减少磁盘IO可以对数据进行压缩,可以进行压缩的地方有map输入、map输出、reduce输出。map输入需求:支持切片(LZO、BZIP2)map输出需求:快(snappy)reduce输出需求:若永久保存则压缩率高(gzip),若输出数据作为下一个map输入则需要

2020-07-31 14:32:12 124

原创 解决同步修改集群时间脚本没有终端存在的问题

!/bin/bashfor i in hadoop102 hadoop103 hadoop104do #-t 强制设定伪终端 ssh -t $i "sudo date -s $1"done

2020-07-29 18:11:41 106

原创 Zookeeper集群操作Shell脚本

#脚本解析器#!/bin/bash#分支结构,$1表示脚本名后面的第一个输入参数case $1 in"start"){ #循环执行命令 for i in hadoop102 hadoop103 hadoop104 do #在对应节点执行命令 ssh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start" done};;"stop"){ for i in hadoop1

2020-07-29 17:35:33 228

原创 Hadoop配置支持LZO压缩

1)先下载lzo的jar项目2)下载后的文件名是一个zip格式的压缩包,先进行解压,然后用maven编译。3)将编译后的jar包 放入hadoop/share/hadoop/common/目录下。4)将jar包同步到集群。5)core-site.xml增加配置支持LZO压缩<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?>&l

2020-07-29 13:04:41 227

原创 HDFS存储多目录

HDFS默认的存储路径是在core.site.xml中。<!-- 指定Hadoop运行时产生文件的存储目录 --><property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-2.7.2/data/tmp</value></property>如果当前目录所在的磁盘块已满,需要加入新的磁盘块,那么如何使新加入的磁盘块能够在HDFS中发挥存储作

2020-07-29 12:33:08 578

原创 数据仓库基础概念

数据仓库为什么要分层?1.把复杂的问题简单化:把一个复杂的问题分解成多个步骤来完成,每一层只处理单一的步骤,简单、方便定位。2.减少重复开发:规范数据分层,通过的中间层数据,能够极大的减少重复计算,增加一次结果的复用性。3.隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开。...

2020-07-25 19:23:04 269

原创 HBase之优化

组成架构Master的作用:1.与客户端通信实现表的增删改查。2.分配Regions到每个RegionServer,监控每个RegionServer的状态。RegionServer的作用:1.与客户端通信实现对数据的增、删、查。2.对Region进行分、合。第三方框架Zookeeper在HBase集群上的作用:1.文件系统中管理meta表和Master的位置等信息,客户端可以通过访问zookeeper集群获取这些信息。2.为Master分担客户端对数据的读写工作。写数据流程1.客户端对

2020-07-17 15:35:51 71

原创 Yarn组成架构、Job提交流程及调度器

Yarn组成架构ResourceManager:全局资源管理器,包括ResourceScheduler和ApplicationManager。ApplicationManager:主要负责接收client传输的job请求,为应用(mr程序)分配第一个Container(资源池)来运行第一个ApplicationMaster,还负责监控ApplicationMaster,并且在运行失败的时候重启ApplicationMaster。ResourceScheduler:让每一个节点都充分利用起来,合理的分

2020-07-17 15:24:10 148

原创 MapReduce的组成架构及工作原理

MapReduce组成架构一个完整的MapReduce程序在分布式运行时有三类实例进程:1.MrAppMaster:负责整个程序的过程调度及状态协调。2.MapTask:负责Map阶段的整个数据处理流程,并发执行,数目由数据的分片数决定,map()按行处理,对每个键值对调用一次。3.ReduceTask:负责Reduce阶段的整个数据处理流程,并发执行,数目由数据的分区数决定。reduce()对每一组相同键的键值对调用一次。MapReduce工作原理客户端job提交切片信息、配置文件信息、驱动j

2020-07-17 15:18:15 1598

原创 HDFS组成架构、工作原理以及读写数据流程

组成架构1.NameNode:管理文件系统的命名空间,维护着文件系统树以及整棵树内所有的文件和目录。对于文件来说保存了副本级别、访问时间、访问权限、块大小、字节数、组成一个文件的块等。对于文件目录来说保存了访问权限等。同时记录着每个文件中各个块所在的数据节点信息,但这个信息不永久保存,每次启动时由数据节点上报。2.DataNode:管理数据块与操作系统的映射关系、执行数据块的读写操作3.Client:文件切分、与NameNode交互,获取文件的位置信息、与DataNode交互,读取或写入数据

2020-07-17 15:07:54 354

原创 八大排序算法原理及实现

插入排序原理:从数组第二个元素开始,依次与第一个元素到当前元素的前一个元素比较,直到找到合适位置,移动、插入。public static void insertSort(int[] arr){ //用于交换的临时变量 int temp; //从第二个元素起,依次从最左侧比较 for(int i=1;i<arr.length;i++){ for (int j=0;j<i;j++){

2020-07-12 00:09:41 245

原创 二叉树的递归和非递归层序遍历

非递归层序遍历二叉树//非递归层序遍历 public void sequenceTraversal(){ //每一层加入队列的节点个数 int num=0; //当前层下一层的入队节点个数 int nextNum=0; //每一层已经遍历的节点个数 int alreadyNum=0; //存放节点的队列 Queue queue=new Queue(); /

2020-07-02 16:41:07 176

原创 二叉树的前中后序遍历

二叉树的分类满二叉树:二叉树的所有叶子节点都在最后一层,并且节点总数为2^n-1,n为二叉树的层数。完全二叉树:二叉树的所有叶子节点都在最后一层或者倒数第二层,而且最后一层的叶子节点在左边连续,倒数第二层的叶子节点在右边连续。二叉树遍历package tree.binaryTree;public class BinaryTree { //根节点 private Node root; public BinaryTree(Node root) { this

2020-07-01 21:44:52 221

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除