Hadoop
博客写的好晚上睡得早
这个人不懒,只是不想写
展开
-
三节点Hadoop集群搭建
三节点集群搭建与伪分布式类似,为减少部署安装的程序可以直接将原来搭建伪分布式的服务器上的内容拷贝或同步到三个节点上。如果未搭建过伪分布,则可以先部署一台服务器然后拷贝或同步到其他服务器。原创 2019-03-21 16:46:43 · 311 阅读 · 0 评论 -
HDFS命令行操作和客户端操作整理
1 命令行操作1.1 基本语法bin/hadoop fs 具体命令1.2 参数大全[root@hadoop2 hadoop-2.7.2]# bin/hadoop fs[-appendToFile <localsrc> ... <dst>][-cat [-ignoreCrc] <src> ...][-checksum <src> ....原创 2019-03-30 15:43:03 · 254 阅读 · 0 评论 -
伪分布式Hadoop集群搭建备忘录
1 JDK与Hadoop安装1.1 建立文件夹在/opt/目录下创建文件夹module和software。software用于上传jar包,文件解压到module目录下。1.2 上传jar包1.3 解压jar包** tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module tar -zxvf jdk-8u201-linux-x64.tar.gz -C /...原创 2019-03-18 15:18:34 · 246 阅读 · 0 评论 -
Hadoop常用操作整理
多目录设置NameNode多目录设置namenode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性。操作流程1)配置hdfs-site.xml新增下述内容<property> <name>dfs.namenode.name.dir</name> <value>file:///${hadoop.tmp.dir}...原创 2019-05-08 14:58:28 · 322 阅读 · 0 评论 -
配置文件整理
存储路径:/opt/module/hadoop-2.7.2/etc/hadoophdfs-site.xml必须配置<!--指定HDFS副本的数量--><property> <name>dfs.replication</name> <value>1</value> ...原创 2019-05-09 11:29:08 · 124 阅读 · 0 评论 -
MapReduce学习整理(1)——常用代码篇
整理Mapreduce操作的一些流程和代码原创 2019-05-22 11:31:36 · 156 阅读 · 0 评论 -
MapReduce学习整理(3)——压缩篇
压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。原创 2019-05-27 18:09:06 · 163 阅读 · 0 评论 -
Zookeeper学习整理
一、概述1.1 概述Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。1)Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。2)Leader负责进行投票的发起和决议,更新系统状态。3)Follower用于接收客户请求并向客户端返回结果,在选举Leader过程中参与投票。4)集群中只要有半数以上节点存活,Zo...原创 2019-06-05 21:41:43 · 148 阅读 · 0 评论 -
HIVE学习整理(1)——基础篇
一、Hive概述1.1 hive概念Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS;2)Hive分析数据底层的实现是MapReduce;3)执行程序运行在Yarn上。1.2 hive优缺点分析优点:1)操作接口采用类SQL语法,提供快速开发...原创 2019-06-09 23:23:10 · 155 阅读 · 0 评论