MapReduce_小A__的博客-CSDN博客

MapReduce

关注

关注数：文章数：21 文章阅读量：64355 文章收藏量：174

作者: 小A__

人生不就是写，写，写吗！！！

展开

java.lang.Exception: java.lang.OutOfMemoryError: Java heap space MyEclipse运行报错，内存溢出（解决）

MyEclipse运行之后报错：java.lang.Exception: java.lang.OutOfMemoryError: Java heap spaceCaused by: java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask....

原创 2018-06-30 22:54:45 · 948 阅读 · 0 评论
MapReduce之倒排索引的讲解--例子

1.需求：将以下三个文件进行倒排。【word1.txt】 MapReduce is simple 【word2.txt】 ...

原创 2018-07-19 19:29:57 · 1524 阅读 · 0 评论
利用MapReduce进行二次排序--附例子

首先先来明确几个概念： 1.分区-partition 1）分区（partition）：默认采取散列值进行分区，但此方法容易造成 “ 数据倾斜 ” （大部分数据分到同一个reducer中，影响运行效率）；所以需要自定义partition; ...

原创 2018-07-19 21:35:59 · 3174 阅读 · 1 评论
利用MapReduce解决用户的上、下限流量，并求和问题--附例子

要求:需要统计手机用户流量日志，日志内容实例：手机号上行流量下行流量 13726230501 200 1100 1...

原创 2018-07-19 22:17:49 · 518 阅读 · 0 评论
工程名出现一个红色感叹号，及其出现的一些Errors

要是Eclipse创建的工程名出现一个醒目的红色感叹号，则说明bulid path导入的jar包出错；解决： 1.右键该项目----》build path----》configure build path 2.在弹出的窗口里，找到libraries，点击。会发现有无用的jar包，这些jar包前会有红色错号。 3.选中这些jar包，...

原创 2018-07-14 10:16:26 · 1074 阅读 · 0 评论
Hadoop搭建Zookeeper的详细步骤与讲解 --单机模式

Zookeeper作用： Apache ZooKeeper是一种高可用性服务，用于维护少量协调数据，通知客户端该数据的更改以及监视客户端的故障。自动HDFS故障转移的实现依赖于ZooKeeper来实现以下功能： a.故障检测：集群中的每个NameNode计算机都在ZooKeeper中维护一个持久会话。如果计算机崩溃，ZooKeeper会话将过...

原创 2018-07-25 23:40:52 · 1786 阅读 · 0 评论
Mapreduce提交job到队列，报错Failed to submit application

需求：提交job到集群中的某个队列，此时我们把default 队列改为Flow ，order，然后会报下述的错：Exception in thread "main" java.io.IOException: org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1532225489052...

原创 2018-07-22 11:57:40 · 10938 阅读 · 1 评论
Hadoop搭建HBase的方法和步骤--完全分布式

HBase数据库----------------------------- 1.Hbase是在HDFS上面向列的分布式的数据库； HBase首先是数据库，分布式的，面向列的，<首选在HDFS基础上>； Google发布三篇论文：GFS、Ma...

原创 2018-07-30 18:57:55 · 496 阅读 · 0 评论
Hadoop搭建HA的步骤与讲解--详细

前提: 已经有搭建过hadoop集群了，本文章主要是在Hadoop条件下搭建HA，现在让我们先在主节点master搭建HA,并测试：搭建HA的步骤：（要保证各master，slave1，slave2三个可以互相ssh无密登陆） 1. 创建软链接： ln -s hadoop_cluster_ha ...

原创 2018-07-27 22:29:22 · 1478 阅读 · 0 评论
MapReduce计算同一个订单ID的最大金额数--加深group的印象

需求：在输入文件中，求出每一个订单Id花费金额的最大值！！输入文件：GoodsMaxID.txt 订单ID 商品ID 金额Order_0000001 Pdt_01 222.8Order_0000001 Pdt_05 25.8Order_0000002 Pdt_05 325.8Order_0000002 Pdt_03 522.8Order_000...

原创 2018-07-24 20:29:17 · 1157 阅读 · 3 评论
MapReduce之单表关联Join输出祖父母、孙子---(附例子)

需求：一个文件，有子女和对应的父母，要求输出祖父母孙子，文件如下：单表关联结果：child parent grand childTom Lucy Alice TomTom Jack Jesse TomJon...

原创 2018-07-24 16:56:58 · 1808 阅读 · 0 评论
Mapreduce之多表关联Join---（附例子)

需求： address.txt: 1 Beijing2 Guangzhou3 Shenzhen4 Xian factory.txt:Beijing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1Guangzhou Development ...

原创 2018-07-24 16:05:48 · 3287 阅读 · 1 评论
MapReduce计算奇偶行分别求和--附例子

例题：一个age文件，里面每行都是一个年龄，一共1-20行，需求:奇偶行求和！！！编写Mapper和Reducer阶段需要了解的数据类型在Mapper阶段：/** * 四个泛型类型分别代表： * KeyIn Mapper的输入数据的Key，这里是每行文字的起始位置（1,2...20） * ValueIn Mapper的输入数据的Value，这里...

原创 2018-07-09 10:18:42 · 1303 阅读 · 0 评论
了解MapReduce之Partition分区的概念与执行过程（附例子）

Partition1.用户需求在执行MR程序时我们可能想要将不同的数据放到不同的文件中。2.概念 partition是在map阶段完成后执行的。然后将分好区的数据传输到reduce端，也就是由Partitioner来决定每条记录应该送往哪个reducer节点。mapreduce中默认的分区是HashPartition类；核心代码：...

原创 2018-07-09 20:02:06 · 4022 阅读 · 0 评论
本地执行MapReduce程序，报错org.apache.hadoop.io.nativeio.NativeIO

在进行MapReduce进行本地文娟Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

原创 2018-06-27 19:19:02 · 680 阅读 · 0 评论
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io解决方法

本地执行MapReduce数据，可能会出现下面的错误：抛异常：Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 原因：...

原创 2018-06-28 13:58:33 · 7539 阅读 · 5 评论
本地执行MapReduce程序之后，报的一些错误

【client eclipse集群提交运行】：客户端 eclipse集群提交 mapreduce代码 1. 需求：在master:8088上，有客户端提交的job,则需要local-->yarn 需要改：【mapred-site.xml】 <property> <name>mapreduce....

原创 2018-06-28 14:25:16 · 1883 阅读 · 0 评论
MapReduce对 file1.txt , file2.txt里面的内容进行去重，排序，并输出结果

题目：利用MapReduce对 file1.txt和 file2.txt里面对里面的内容进行去重，排序，并输出结果。。。1.Mapper阶段：主要是对<k1,v1>进行排序，排序之后<k2,v2>作为Map的输出；public class DistinctMapper extends Mapper<LongWritable,...

原创 2018-07-16 23:02:43 · 945 阅读 · 0 评论
利用MapReduce计算学生的平均成绩--(附例子)

要求：利用MapReduce计算学生的平均成绩？？？分析： Mapper阶段将学生的name和grade成绩context.write(name,grade), 实现<k1,v1>---> <k2,v2>的转换； Reduce阶段计算每个学生的平均成绩；【这个阶段实现了...

原创 2018-07-17 22:38:58 · 13618 阅读 · 1 评论
MapReduce程序计算多个文件，对里面的数字进行排序，并输出（附例子）

MapReduce计算的案例，如下：数据排序sortDemo：将sortfile1.txt、sortfile2.txt、sortfile3.txt中的记录整合排序后，输出到一个文件中，包含行号。编写MapReduce程序，实现上述内容：分析：利用MR的sort能力，必须进行shuffle，一定实现reduce； 1.编写mappe...

原创 2018-07-12 17:59:56 · 5579 阅读 · 1 评论
HBase在MyEclipse常用的创建，删除，插入数据的Java代码--API

HBase在MyEclispe上执行各种API的操作如：命名空间的创建，删除，和查询表空间表的创建，插入数据（分为单行和多行），删除，查询（分为单行和多行，和区间查询），切分：分为regionname 和table 过滤：过滤满足条件的数据项目环境： ...

原创 2018-08-06 19:08:28 · 613 阅读 · 0 评论

MapReduce

作者: 小A__

java.lang.Exception: java.lang.OutOfMemoryError: Java heap space MyEclipse运行报错，内存溢出（解决）

MapReduce之倒排索引的讲解--例子

利用MapReduce进行二次排序--附例子

利用MapReduce解决用户的上、下限流量，并求和问题--附例子

工程名出现一个红色感叹号，及其出现的一些Errors

Hadoop搭建Zookeeper的详细步骤与讲解 --单机模式

Mapreduce提交job到队列，报错Failed to submit application

Hadoop搭建HBase的方法和步骤--完全分布式

Hadoop搭建HA的步骤与讲解--详细

MapReduce计算同一个订单ID的最大金额数--加深group的印象

MapReduce之单表关联Join输出祖父母、孙子---(附例子)

Mapreduce之多表关联Join---（附例子)

MapReduce计算奇偶行分别求和--附例子

了解MapReduce之Partition分区的概念与执行过程（附例子）

本地执行MapReduce程序，报错org.apache.hadoop.io.nativeio.NativeIO

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io解决方法

本地执行MapReduce程序之后，报的一些错误

MapReduce对 file1.txt , file2.txt里面的内容进行去重，排序，并输出结果

利用MapReduce计算学生的平均成绩--(附例子)

MapReduce程序计算多个文件，对里面的数字进行排序，并输出（附例子）

HBase在MyEclipse常用的创建，删除，插入数据的Java代码--API