hadoop
文章平均质量分 63
小马哥_编程
酷爱足球,喜欢编程,历史知识
展开
-
Hadoop学习(一)
一、Hadoop介绍 Hadoop由两部分组成,分别是HDFS和MapReduce。HDFS是分布式存储系统,MapReduce是并行计算框架。 二、HDFS介绍 1、主从机构 主节点,只有一个namenode 从节点,可以有很原创 2017-08-07 22:07:57 · 396 阅读 · 0 评论 -
Hive 的DML操作
一、导入数据1、向表中加载数据(load)语法:hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)、load data:表示加载数据(2)、local:表示加载本地数据到...原创 2018-09-14 16:57:17 · 1137 阅读 · 0 评论 -
Hadoop 的三种调度器FIFO、Capacity Scheduler、Fair Scheduler
目前Hadoop有三种比较流行的资源调度器:FIFO 、Capacity Scheduler、Fair Scheduler。目前hadoop2.7默认使用的是Capacity Scheduler容量调度器。一、FIFO(先入先出调度器)hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干m...原创 2018-09-09 21:39:22 · 12553 阅读 · 1 评论 -
Hadoop 企业级优化
一、MapReduce跑得慢的原因MapReduce的瓶颈有一下两点:1、计算机硬件方面CPU、内存、网络、硬盘等。2、I/O方面1、数据倾斜的问题2、map和reduce设置的个数不合理3、spill溢写设置的不合理,导致溢写个数过多4、merge归并文件个数设置不合理,导致归并个数过多5、map运行的时间过长,导致reduce等待时间太久6、小文件太多...原创 2018-09-11 16:37:52 · 429 阅读 · 0 评论 -
Hive 分区表和二级分区表的基本操作
Hive分区就是在HDFS上创建独立的文件夹,该文件夹下是该分区的所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择来查询所需要的指定分区,这样的查询效率会提高很多。1、引入分区表最终呈现的效果就是在HDFS上按照分区的目录存储文件:/user/hive/warehose/log/201801/01/dep...原创 2018-09-12 23:27:29 · 9238 阅读 · 4 评论 -
关于VMware时间不同步的解决方法
Vmware虚拟机的用户可能会出现这样的问题,用虚拟机下的系统时,其时间显示的是相应语言对应国家的时间,与所在地区不同步,这样会很不方便,那么该怎么修改才能使得时间同步呢?这里有三种解决方法,供大家参考。 问题: 在Windows操作系统下安装vmware虚拟机后,再安装Linux以后时间总是与真实计算机的不同步 解决方法: 方法1: 步骤1转载 2017-09-12 16:02:04 · 18709 阅读 · 0 评论 -
hadoop集群时间同步
测试环境: 192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:转载 2017-09-08 10:35:45 · 2464 阅读 · 0 评论 -
Hadoop1.x 的MapReduce 简单例子WordCount
一. 前言 之前笔记里记得案例今天看到了,所以拿出来分享。 **首先介绍一下案例需求,统计出hadoop上的一个hello目录下的文件不同单词的个数,并输出统计结果。**MapReduce 是一种分布式计算模型,主要分为Map和Reduce两部分,用户只需要实现map()和reduce()函数就可以,一般两个函数之间以key和value这种键值对传递参数二.代码import java.io.I原创 2017-08-02 15:40:00 · 477 阅读 · 1 评论 -
Zookeeper的安装
一、ZooKeeper 概述 Zookeeper 是分布式协调服务,分布式程序可以基于Zookeeper来实现同步服务、配置服务和命名服务等。 ZooKeeper 是确保数据在其管理的服务器集群之间的数据的事务一致性。二、Zookeeper的安装 1、zookeeper集群节点数不能少于3原创 2017-08-02 22:42:57 · 289 阅读 · 0 评论 -
Hadoop1.x MapReduce 实现二次排序 实现WritableComparable接口
一、前言利用MapReduce来实现,首先按照第一列升序排列,当第一列相同时,第二列升序排列 3 3 3 2 3 1 2 2 2 1 1 1-------------------------------------预期结果 1 1 2 1 2 2 3 1 3 2原创 2017-08-02 17:23:48 · 511 阅读 · 0 评论 -
MapReduce工作流程、Yarn工作机制
一、MapReduce工作流程 二、yarn的工作机制0、MapReduce程序提交的客户端所在的节点上。1、客户端向ResourceManager申请一个Application。2、ResourceManager 返回一个Application资源提交的HDFS路径和Application_id。3、客户端将运行job的资源(job.xml、job.spli...原创 2018-09-27 18:36:33 · 513 阅读 · 0 评论