MapReduce
小A__
人生不就是写,写,写吗!!!
展开
-
java.lang.Exception: java.lang.OutOfMemoryError: Java heap space MyEclipse运行报错,内存溢出(解决)
MyEclipse运行之后报错:java.lang.Exception: java.lang.OutOfMemoryError: Java heap spaceCaused by: java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask....原创 2018-06-30 22:54:45 · 948 阅读 · 0 评论 -
MapReduce之倒排索引的讲解--例子
1.需求:将以下三个文件进行倒排。 【word1.txt】 MapReduce is simple 【word2.txt】 ...原创 2018-07-19 19:29:57 · 1524 阅读 · 0 评论 -
利用MapReduce进行二次排序--附例子
首先先来明确几个概念: 1.分区-partition 1)分区(partition): 默认采取散列值进行分区,但此方法容易造成 “ 数据倾斜 ” (大部分数据分到同一个reducer中,影响运行效率); 所以需要自定义partition; ...原创 2018-07-19 21:35:59 · 3174 阅读 · 1 评论 -
利用MapReduce解决用户的上、下限流量,并求和问题--附例子
要求:需要统计手机用户流量日志,日志内容实例: 手机号 上行流量 下行流量 13726230501 200 1100 1...原创 2018-07-19 22:17:49 · 518 阅读 · 0 评论 -
工程名出现一个红色感叹号,及其出现的一些Errors
要是Eclipse创建的工程名出现一个醒目的红色感叹号,则说明bulid path导入的jar包出错;解决: 1.右键该项目----》build path----》configure build path 2.在弹出的窗口里,找到libraries,点击。会发现有无用的jar包,这些jar包前会有红色错号。 3.选中这些jar包,...原创 2018-07-14 10:16:26 · 1074 阅读 · 0 评论 -
Hadoop搭建Zookeeper的详细步骤与讲解 --单机模式
Zookeeper作用: Apache ZooKeeper是一种高可用性服务,用于维护少量协调数据,通知客户端该数据的更改以及监视客户端的故障。自动HDFS故障转移的实现依赖于ZooKeeper来实现以下功能: a.故障检测:集群中的每个NameNode计算机都在ZooKeeper中维护一个持久会话。如果计算机崩溃,ZooKeeper会话将过...原创 2018-07-25 23:40:52 · 1786 阅读 · 0 评论 -
Mapreduce提交job到队列,报错Failed to submit application
需求:提交job到集群中的某个队列,此时我们把default 队列改为Flow ,order,然后会报下述的错:Exception in thread "main" java.io.IOException: org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1532225489052...原创 2018-07-22 11:57:40 · 10938 阅读 · 1 评论 -
Hadoop搭建HBase的方法和步骤--完全分布式
HBase数据库----------------------------- 1.Hbase是在HDFS上面向列的分布式的数据库; HBase首先是数据库,分布式的,面向列的,<首选在HDFS基础上>; Google发布三篇论文:GFS、Ma...原创 2018-07-30 18:57:55 · 496 阅读 · 0 评论 -
Hadoop搭建HA的步骤与讲解--详细
前提: 已经有搭建过hadoop集群了,本文章主要是在Hadoop条件下搭建HA, 现在让我们先在主节点master搭建HA,并测试:搭建HA的步骤:(要保证各master,slave1,slave2三个可以互相ssh无密登陆) 1. 创建软链接: ln -s hadoop_cluster_ha ...原创 2018-07-27 22:29:22 · 1478 阅读 · 0 评论 -
MapReduce计算同一个订单ID的最大金额数--加深group的印象
需求:在输入文件中,求出每一个订单Id花费金额的最大值!!输入文件:GoodsMaxID.txt 订单ID 商品ID 金额Order_0000001 Pdt_01 222.8Order_0000001 Pdt_05 25.8Order_0000002 Pdt_05 325.8Order_0000002 Pdt_03 522.8Order_000...原创 2018-07-24 20:29:17 · 1157 阅读 · 3 评论 -
MapReduce之单表关联Join输出祖父母、孙子---(附例子)
需求:一个文件,有子女和对应的父母,要求输出 祖父母 孙子,文件如下:单表关联 结果:child parent grand childTom Lucy Alice TomTom Jack Jesse TomJon...原创 2018-07-24 16:56:58 · 1808 阅读 · 0 评论 -
Mapreduce之多表关联Join---(附例子)
需求: address.txt: 1 Beijing2 Guangzhou3 Shenzhen4 Xian factory.txt:Beijing Red Star 1Shenzhen Thunder 3Guangzhou Honda 2Beijing Rising 1Guangzhou Development ...原创 2018-07-24 16:05:48 · 3287 阅读 · 1 评论 -
MapReduce计算奇偶行分别求和--附例子
例题:一个age文件,里面每行都是一个年龄,一共1-20行,需求:奇偶行求和!!!编写Mapper和Reducer阶段需要了解的数据类型在Mapper阶段:/** * 四个泛型类型分别代表: * KeyIn Mapper的输入数据的Key,这里是每行文字的起始位置(1,2...20) * ValueIn Mapper的输入数据的Value,这里...原创 2018-07-09 10:18:42 · 1303 阅读 · 0 评论 -
了解MapReduce之Partition分区的概念与执行过程(附例子)
Partition1.用户需求 在执行MR程序时我们可能想要将不同的数据放到不同的文件中。2.概念 partition是在map阶段完成后执行的。然后将分好区的数据传输到reduce端,也就是由Partitioner来决定每条记录应该送往哪个reducer节点。mapreduce中默认的分区是HashPartition类; 核心代码:...原创 2018-07-09 20:02:06 · 4022 阅读 · 0 评论 -
本地执行MapReduce程序,报错org.apache.hadoop.io.nativeio.NativeIO
在进行MapReduce进行本地文娟Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z原创 2018-06-27 19:19:02 · 680 阅读 · 0 评论 -
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io解决方法
本地执行MapReduce数据,可能会出现下面的错误: 抛异常:Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 原因:...原创 2018-06-28 13:58:33 · 7539 阅读 · 5 评论 -
本地执行MapReduce程序之后,报的一些错误
【client eclipse集群提交运行】:客户端 eclipse集群提交 mapreduce代码 1. 需求:在master:8088上,有客户端提交的job,则需要local-->yarn 需要改: 【mapred-site.xml】 <property> <name>mapreduce....原创 2018-06-28 14:25:16 · 1883 阅读 · 0 评论 -
MapReduce对 file1.txt , file2.txt里面的内容进行去重,排序,并输出结果
题目:利用MapReduce对 file1.txt和 file2.txt里面对里面的内容进行去重,排序,并输出结果。。。1.Mapper阶段: 主要是对<k1,v1>进行排序,排序之后<k2,v2>作为Map的输出;public class DistinctMapper extends Mapper<LongWritable,...原创 2018-07-16 23:02:43 · 945 阅读 · 0 评论 -
利用MapReduce计算学生的平均成绩--(附例子)
要求:利用MapReduce计算学生的平均成绩???分析: Mapper阶段 将学生的name和grade成绩context.write(name,grade), 实现<k1,v1>---> <k2,v2>的转换; Reduce阶段 计算每个学生的平均成绩;【这个阶段实现了...原创 2018-07-17 22:38:58 · 13618 阅读 · 1 评论 -
MapReduce程序计算多个文件,对里面的数字进行排序,并输出(附例子)
MapReduce计算的案例,如下: 数据排序sortDemo: 将sortfile1.txt、sortfile2.txt、sortfile3.txt中的记录整合排序后,输出到一个文件中,包含行号。 编写MapReduce程序,实现上述内容: 分析:利用MR的sort能力,必须进行shuffle,一定实现reduce; 1.编写mappe...原创 2018-07-12 17:59:56 · 5579 阅读 · 1 评论 -
HBase在MyEclipse常用的创建,删除,插入数据的Java代码--API
HBase在MyEclispe上执行各种API的操作 如:命名空间的创建,删除,和查询表空间 表的创建,插入数据(分为单行和多行),删除,查询(分为单行和多行,和区间查询), 切分:分为regionname 和table 过滤:过滤满足条件的数据项目环境: ...原创 2018-08-06 19:08:28 · 613 阅读 · 0 评论