2020年07月_敬畏自然.

原创 MapReduce过程中的优化

1.增大环形缓冲区的容量（默认100M）或者提高溢写的阈值，可以减少溢写到磁盘的次数。2.增大每次归并的文件个数（默认为10个），可以减少归并的次数。3.归并的过程中，可以对数据进行合并，前提是合并操作不会影响最终的业务逻辑。4.为了减少磁盘IO可以对数据进行压缩，可以进行压缩的地方有map输入、map输出、reduce输出。map输入需求：支持切片（LZO、BZIP2）map输出需求：快（snappy）reduce输出需求：若永久保存则压缩率高（gzip），若输出数据作为下一个map输入则需要

2020-07-31 14:32:12 124

原创解决同步修改集群时间脚本没有终端存在的问题

!/bin/bashfor i in hadoop102 hadoop103 hadoop104do #-t 强制设定伪终端 ssh -t $i "sudo date -s $1"done

2020-07-29 18:11:41 106

原创 Zookeeper集群操作Shell脚本

#脚本解析器#!/bin/bash#分支结构，$1表示脚本名后面的第一个输入参数case $1 in"start"){ #循环执行命令 for i in hadoop102 hadoop103 hadoop104 do #在对应节点执行命令 ssh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start" done};;"stop"){ for i in hadoop1

2020-07-29 17:35:33 228

原创 Hadoop配置支持LZO压缩

1）先下载lzo的jar项目2）下载后的文件名是一个zip格式的压缩包，先进行解压，然后用maven编译。3）将编译后的jar包放入hadoop/share/hadoop/common/目录下。4）将jar包同步到集群。5）core-site.xml增加配置支持LZO压缩<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?>&l

2020-07-29 13:04:41 227

原创 HDFS存储多目录

HDFS默认的存储路径是在core.site.xml中。<property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-2.7.2/data/tmp</value></property>如果当前目录所在的磁盘块已满，需要加入新的磁盘块，那么如何使新加入的磁盘块能够在HDFS中发挥存储作

2020-07-29 12:33:08 578

原创数据仓库基础概念

数据仓库为什么要分层？1.把复杂的问题简单化：把一个复杂的问题分解成多个步骤来完成，每一层只处理单一的步骤，简单、方便定位。2.减少重复开发：规范数据分层，通过的中间层数据，能够极大的减少重复计算，增加一次结果的复用性。3.隔离原始数据：不论是数据的异常还是数据的敏感性，使真实数据与统计数据解耦开。...

2020-07-25 19:23:04 270

原创 HBase之优化

组成架构Master的作用：1.与客户端通信实现表的增删改查。2.分配Regions到每个RegionServer，监控每个RegionServer的状态。RegionServer的作用：1.与客户端通信实现对数据的增、删、查。2.对Region进行分、合。第三方框架Zookeeper在HBase集群上的作用：1.文件系统中管理meta表和Master的位置等信息，客户端可以通过访问zookeeper集群获取这些信息。2.为Master分担客户端对数据的读写工作。写数据流程1.客户端对

2020-07-17 15:35:51 71

原创 Yarn组成架构、Job提交流程及调度器

Yarn组成架构ResourceManager：全局资源管理器，包括ResourceScheduler和ApplicationManager。ApplicationManager：主要负责接收client传输的job请求，为应用（mr程序）分配第一个Container（资源池）来运行第一个ApplicationMaster，还负责监控ApplicationMaster，并且在运行失败的时候重启ApplicationMaster。ResourceScheduler：让每一个节点都充分利用起来，合理的分

2020-07-17 15:24:10 148

weixin_44911106的博客

原创 MapReduce过程中的优化

原创解决同步修改集群时间脚本没有终端存在的问题

原创 Zookeeper集群操作Shell脚本

原创 Hadoop配置支持LZO压缩

原创 HDFS存储多目录

原创数据仓库基础概念

原创 HBase之优化

原创 Yarn组成架构、Job提交流程及调度器

原创 MapReduce的组成架构及工作原理

原创 HDFS组成架构、工作原理以及读写数据流程

原创八大排序算法原理及实现

原创二叉树的递归和非递归层序遍历

原创二叉树的前中后序遍历

空空如也

空空如也