![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop及其生态圈
wangl66
这个作者很懒,什么都没留下…
展开
-
zookeeper的分布式锁的实现
zookeeper作为支持应用程序高可用性的首选方案,他肯定有自己的强大之处,所以对于他的一些应用还是很有必要了解的。原创 2016-11-03 14:05:08 · 322 阅读 · 0 评论 -
hadoop2.x的集群搭建
Hadoop集群安装1.配置服务器1个主节点:master(192.168.15.128),2个(从)子节点,slaver1(192.168.15.129),slaver2(192.168.15.130)配置主节点名(192.168.15.128)vi /etc/sysconfig/network添加内容:NETWORKING=yesHOSTNAME=master配原创 2016-10-19 21:55:36 · 325 阅读 · 0 评论 -
hbase的整体架构分析
HBase的功能非常强大,下面是我对于HBase的一些理解,欢迎指点。HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。Region1. Table随着记录增多不断变大,会自动分裂成多份Splits,成为Regions原创 2016-11-09 17:38:41 · 490 阅读 · 0 评论 -
maven项目由于多个依赖中含有同一个jar包导致的冲突问题的解决办法
今天在利用mapreduce对HBase进行输入输出的时候,发生了一件很无厘头的事情,我和同事写同样的代码,但是我成功了,而他却失败了,这就有点让人头疼。一开始我们以为是配置的问题,但是经过比对,配置并没有什么不同。因此,我就将mapreduce的执行过程看了一遍,结果发现,他的org.apache.hadoop.conf.Configuration 类和我的org.apache.hadoop.c原创 2016-11-10 11:56:56 · 9975 阅读 · 1 评论 -
HA机制下hadoop2.x的配置
对于hadoop下分布式文件系统的单点故障问题,采用HA(high availibility)高可用性机制进行应对时的hadoop集群的配置转载 2016-10-19 17:36:24 · 425 阅读 · 0 评论 -
hbase的预分区
HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与 EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-endkey范围内,那么就会定位到目标region并且读/写到相关的数据当我们只是通过HBaseAdmin指定TableDescriptor来创建原创 2016-11-09 21:06:47 · 1675 阅读 · 0 评论 -
hive中自定义UDAF、 UDTF、 UDF
回头看了看之前自定义的UDF,UDAF,UDTF,竟然有种生疏的感觉,因此,对于其中的代码重新做了注释,更加的详细和容易理解,下面就是我自己定义的几个样例,比较简单,主要是通过样例来了解如何自定义UDF来完成需求。原创 2016-11-09 19:55:56 · 902 阅读 · 0 评论 -
hbase的常用操作
package com.wangl.hadoop.hbase;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.a原创 2016-10-27 22:09:03 · 424 阅读 · 0 评论 -
hive的分区和分桶
1、Hive分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。 Hive可以对数据按照某列或者某些列进行分区管理,所谓分区我们可以拿下面的例子进行解释。 当前互联网应用每天都要存储大量的日志文件,几G、几十原创 2016-10-26 09:50:38 · 13741 阅读 · 0 评论 -
hive中控制map和reduce的个数
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1原创 2016-10-25 17:50:43 · 943 阅读 · 0 评论 -
hadoop核心知识点总结
1、 安装hadoop需要配置的hadoop中的配置文件有哪些?hadoop-env.shyarn-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlslaves2、 Hadoop的核心模块和相应的进程HDFS:namenode,datanode,secondarynameno原创 2016-10-14 17:22:24 · 7156 阅读 · 0 评论 -
mapreduce机制及mapreduce任务的分析
由于经典的MapReducer(MapReduce1)的jobtracker负责作业的调度、任务进度监视、追踪、重启过慢的任务和进行任务登记,对于CPU的消耗非常大,而且jobtracker是与namenode在同一节点上,namenode的内存中还需要保存每个文件的各个块的元数据信息,所以对于内存的消耗非常巨大,也因此成为了mapreduce1的瓶颈。对于节点超出4000的大型集群,mapr原创 2016-10-11 19:04:35 · 2871 阅读 · 0 评论 -
浅析hadoop(一)之HDFS
浅析Hadoop(一)之HDFS再次看hadoop权威指南,又有了一些不一样的收获,所以心血来潮,就想将我理解和整理的东西写出来,还有很多不足,欢迎大家指正。1. hdfs的特点一次写入,多次读取硬件要求低高延时性,高吞吐量,牺牲低延时,获得高吞吐不适合大量的小文件存储Hdfs的文件只能有一个writer,写操作只能追加,而不能修改。2. hdfs的数据块大原创 2016-12-02 16:51:58 · 807 阅读 · 0 评论