2018年07月_小A__

原创 Hadoop搭建HBase的方法和步骤--完全分布式

HBase数据库----------------------------- 1.Hbase是在HDFS上面向列的分布式的数据库； HBase首先是数据库，分布式的，面向列的，<首选在HDFS基础上>； Google发布三篇论文：GFS、Ma...

2018-07-30 18:57:55 496

原创 Hadoop搭建HBase的步骤--伪分布

HBase数据库----------------------------- 1.Hbase是在HDFS上面向列的分布式的数据库； HBase首先是数据库，分布式的，面向列的，<首选在HDFS基础上>； Google发布三篇论文：GFS、Ma...

2018-07-30 18:26:58 588

原创 Hadoop在Zookeeper、HA的条件下配置HBase的步骤--单机模式

前提：本文在Hadoop已配置好zookeeper和HA的组件的条件下，去配置HBase组件，单机模式，是在master主机上配置。软件： hbase-1.3.1.tar.gz 步骤：安装Hbase（本地存储） 1.下载hbase-1.3.1版...

2018-07-30 17:51:39 563

原创配置Zookeeper组件的步骤和讲解-- 集群模式

本文主要是在Zookeeper单机的条件下，去部署配置集群的zookeeper，单机模式的配置是在：【https://blog.csdn.net/xiaozelulu/article/details/81211258】博客下完成。自动容灾（自动故障转移）：需要在HDFS部署环境中配置两个组件： 1.Zookeeper集群 2.ZK...

2018-07-29 14:16:28 709

原创 Hadoop搭建HA的时候，开启NameNode服务的时候总有其中一个挂掉的原因及解决方法

搭建HA的情况下，开启start-dfs.sh 服务的时候， master和slave1两个NameNode服务总有一个挂掉，原因：start-dfs.sh的时候，首先开启的是 master：NameNode 后是 s...

2018-07-27 23:04:39 2573

原创 Hadoop搭建HA的步骤与讲解--详细

前提: 已经有搭建过hadoop集群了，本文章主要是在Hadoop条件下搭建HA，现在让我们先在主节点master搭建HA,并测试：搭建HA的步骤：（要保证各master，slave1，slave2三个可以互相ssh无密登陆） 1. 创建软链接： ln -s hadoop_cluster_ha ...

2018-07-27 22:29:22 1478

原创 Hadoop搭建Zookeeper的详细步骤与讲解 --单机模式

Zookeeper作用： Apache ZooKeeper是一种高可用性服务，用于维护少量协调数据，通知客户端该数据的更改以及监视客户端的故障。自动HDFS故障转移的实现依赖于ZooKeeper来实现以下功能： a.故障检测：集群中的每个NameNode计算机都在ZooKeeper中维护一个持久会话。如果计算机崩溃，ZooKeeper会话将过...

2018-07-25 23:40:52 1785

原创 MapReduce计算同一个订单ID的最大金额数--加深group的印象

需求：在输入文件中，求出每一个订单Id花费金额的最大值！！输入文件：GoodsMaxID.txt 订单ID 商品ID 金额Order_0000001 Pdt_01 222.8Order_0000001 Pdt_05 25.8Order_0000002 Pdt_05 325.8Order_0000002 Pdt_03 522.8Order_000...

2018-07-24 20:29:17 1157 3

原创 MapReduce之单表关联Join输出祖父母、孙子---(附例子)

需求：一个文件，有子女和对应的父母，要求输出祖父母孙子，文件如下：单表关联结果：child parent grand childTom Lucy Alice TomTom Jack Jesse TomJon...

2018-07-24 16:56:58 1806

原创 Mapreduce之多表关联Join---（附例子)

需求： address.txt: 1 Beijing2 Guangzhou3 Shenzhen4 Xian factory.txt:Beijing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1Guangzhou Development ...

2018-07-24 16:05:48 3286 1

原创 Mapreduce提交job到队列，报错Failed to submit application

需求：提交job到集群中的某个队列，此时我们把default 队列改为Flow ，order，然后会报下述的错：Exception in thread "main" java.io.IOException: org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1532225489052...

2018-07-22 11:57:40 10931 1

原创利用MapReduce解决用户的上、下限流量，并求和问题--附例子

要求:需要统计手机用户流量日志，日志内容实例：手机号上行流量下行流量 13726230501 200 1100 1...

2018-07-19 22:17:49 518

原创利用MapReduce进行二次排序--附例子

首先先来明确几个概念： 1.分区-partition 1）分区（partition）：默认采取散列值进行分区，但此方法容易造成 “ 数据倾斜 ” （大部分数据分到同一个reducer中，影响运行效率）；所以需要自定义partition; ...

2018-07-19 21:35:59 3174 1

原创 MapReduce之倒排索引的讲解--例子

1.需求：将以下三个文件进行倒排。【word1.txt】 MapReduce is simple 【word2.txt】 ...

2018-07-19 19:29:57 1524

原创利用MapReduce计算学生的平均成绩--(附例子)

要求：利用MapReduce计算学生的平均成绩？？？分析： Mapper阶段将学生的name和grade成绩context.write(name,grade), 实现<k1,v1>---> <k2,v2>的转换； Reduce阶段计算每个学生的平均成绩；【这个阶段实现了...

2018-07-17 22:38:58 13615 1

原创 MapReduce对 file1.txt , file2.txt里面的内容进行去重，排序，并输出结果

题目：利用MapReduce对 file1.txt和 file2.txt里面对里面的内容进行去重，排序，并输出结果。。。1.Mapper阶段：主要是对<k1,v1>进行排序，排序之后<k2,v2>作为Map的输出；public class DistinctMapper extends Mapper<LongWritable,...

2018-07-16 23:02:43 942

原创工程名出现一个红色感叹号，及其出现的一些Errors

要是Eclipse创建的工程名出现一个醒目的红色感叹号，则说明bulid path导入的jar包出错；解决： 1.右键该项目----》build path----》configure build path 2.在弹出的窗口里，找到libraries，点击。会发现有无用的jar包，这些jar包前会有红色错号。 3.选中这些jar包，...

2018-07-14 10:16:26 1071

原创 MapReduce程序计算多个文件，对里面的数字进行排序，并输出（附例子）

MapReduce计算的案例，如下：数据排序sortDemo：将sortfile1.txt、sortfile2.txt、sortfile3.txt中的记录整合排序后，输出到一个文件中，包含行号。编写MapReduce程序，实现上述内容：分析：利用MR的sort能力，必须进行shuffle，一定实现reduce； 1.编写mappe...

2018-07-12 17:59:56 5578 1

原创了解MapReduce之Partition分区的概念与执行过程（附例子）

Partition1.用户需求在执行MR程序时我们可能想要将不同的数据放到不同的文件中。2.概念 partition是在map阶段完成后执行的。然后将分好区的数据传输到reduce端，也就是由Partitioner来决定每条记录应该送往哪个reducer节点。mapreduce中默认的分区是HashPartition类；核心代码：...

2018-07-09 20:02:06 4018

原创 MapReduce计算奇偶行分别求和--附例子

例题：一个age文件，里面每行都是一个年龄，一共1-20行，需求:奇偶行求和！！！编写Mapper和Reducer阶段需要了解的数据类型在Mapper阶段：/** * 四个泛型类型分别代表： * KeyIn Mapper的输入数据的Key，这里是每行文字的起始位置（1,2...20） * ValueIn Mapper的输入数据的Value，这里...

2018-07-09 10:18:42 1302

大黑牛的博客