5====>大数据
文章平均质量分 87
xiongxianze
这个作者很懒,什么都没留下…
展开
-
彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题
本文合适和对mapreduce有一定了解,并且产生各种问题的同学,算是一个解惑篇。如果刚接触的话,这篇文章很有可能看不下去。建议先了解Hadoop简介(1):什么是Map/ReduceMapReduce 编程模型概述mapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑,我们只是知道什么是map,什么是renduce,甚至我们已经熟悉了mapreduce编程,但是内部转载 2017-07-23 14:44:50 · 351 阅读 · 0 评论 -
map-reduce阶段中的数据倾斜问题
MapReduce数据倾斜: mapreduce处理过程有一个特点,相同的key,只能是发给同一个reduce进行处理。原因:hadoop源码中有一行代码,(key.hashcode())%numReduce,先把key进行hash然后除以reduce的个数取余,相同的key的hashcode肯定一样,而且reduce数也确认,那肯定是相同的key都发给了同一个reduce了举例:假设普通的key原创 2017-06-24 01:52:36 · 2658 阅读 · 0 评论 -
第二代MapReduce阶段解析
MR1存在的问题: 1、JobTracker 是 Map-reduce 的集中处理点,存在单点故障。2、JobTracker 完成了太多的任务,造成了过多的资源消耗,当 map-reduce job 非常多的时候,会造成很大的内存开销,潜在来说,也增加了 JobTracker fail 的风险,这也是业界普遍总结出老 Hadoop 的 Map-Reduce 只能支持 4000 节点主机的上限。3、原创 2017-06-24 16:47:42 · 468 阅读 · 0 评论 -
hadoop的mapreduce作业中出现Java heap space,你认为该如何解决?
hadoop的mapreduce作业中经常出现Java heap space解决方案“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误,然后失败呢?以前同一个作业没出现过的呀?”10/01/10 12:48:01 INFO mapred.JobClient: Task Id : attempt_201001061331_0002_m_000027_0, Status : FAILED转载 2017-06-27 00:47:11 · 1845 阅读 · 0 评论 -
[Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat和OutputFormat,就可以完成这个需求,这里简单的介绍一个从MongoDB中读数据,并写出数据到MongoDB中的一种情况,只是一个Demo,所以数据随便找的一个。一、自定义InputForma转载 2017-07-08 01:03:19 · 799 阅读 · 0 评论 -
MapReduce读写hbase
例子:首先Map阶段读取hbase上的data表数据。接着reduce把结果写会hbase的online_data表1 HBaseTableDemo类:package com.beifeng.hbase;import java.io.IOException;import java.util.HashMap;import java.util.Map;import java.util.String原创 2017-07-08 16:15:03 · 1027 阅读 · 0 评论 -
Hive中Order by和Sort by的区别是什么?
Hive基于HADOOP来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件,这导致了在HADOOP环境下很难对数据进行全局排序,如果在HADOOP上进行order by全排序,会导致所有的数据集中在一台reducer节点上,然后进行排序,这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。转载 2017-07-09 02:02:45 · 813 阅读 · 0 评论 -
hive------select语法介绍
例子:班级表classes.txt,学生表students.txt,两个表文件数据如下:classes:1,班级12,班级23,班级3student:11,1,张三12,1,李四13,1,王五21,2,Tom22,2,Gerry23,2,Simon24,2,Jim91,\N,Jeffrey92,\N,Leo93,\N,even94,\N,aaron95,\N,addison原创 2017-07-09 02:25:28 · 634 阅读 · 0 评论 -
hive------join语法介绍
一、在多表查询的时候,由于表与表之间有关联性,所有hive提供了join的语法,基本类似sql的join语法。主要分为以下五类: 1. 内连接(JOIN) 2. 外链接({LEFT|RIGHT|FULL} [OUTER] JOIN) 3. 半连接(LEFT SEMI JOIN) 4. 笛卡尔连接(CROSS JOIN) 5. 其他连接方式(eg. mapjoin等) 语法格式: lef原创 2017-07-09 03:07:09 · 983 阅读 · 0 评论 -
hive------子查询
实例:子查询 1. 获取学生数最多的班级,学生的个数。 第一步:获取每个班级的学生总数 第二步:选择学生数最多的班级学生数from (select count(studentid) as sc from students where classid is not null group by classid) as tmp select max(sc);2.2原创 2017-07-09 10:33:44 · 730 阅读 · 0 评论 -
关于hive 子查询、union 、left join
建表语句: create table tb_in_base ( id bigint, devid bigint, devname string ) partitioned by (job_time bigint) row format delimited fields terminat转载 2017-07-09 11:21:40 · 1958 阅读 · 0 评论 -
hbase+hive应用场景
一.Hive应用场景本文主要讲述使用 Hive 的实践,业务不是关键,简要介绍业务场景,本次的任务是对搜索日志数据进行统计分析。集团搜索刚上线不久,日志量并不大 。这些日志分布在 5 台前端机,按小时保存,并以小时为周期定时将上一小时产生的数据同步到日志分析机,统计数据要求按小时更新。这些统计项,包括关键词搜索量 pv ,类别访问量,每秒访问量 tps 等等。基于 Hive ,转载 2017-07-18 14:19:27 · 508 阅读 · 0 评论 -
hadoop启动之“hadoop-daemon.sh”详解
今天看了一下启动文件“Hadoop-daemon.sh”,仔细看了一下大概知道它的作用,使用“hadoop-daemon.sh“脚本启动和停止hadoop后台程序。它可以做到在A机器上启动”namenode“,B机器启动”secondarynamenode“ C机器启动”datanode“, ”tasktracker“,具体启动如下 : ./hadoop-daemon.sh start namen转载 2017-07-23 01:39:52 · 5739 阅读 · 1 评论 -
Hadoop YARN安装部署初探
本文主要介绍了在实验环境下,能使YARN(以CDH4为例,Apache版本安装方法类似)正常工作的最简单的配置部署方法。如果想在线上集群环境下搭建YARN,可参考Cloudera的这篇文档:Deploying MapReduce v2 (YARN) on a Cluster。1. 准备首先你需要准备一台或多台服务器,同Hadoop 1.0一样,你需要安装JDK,利用ssh设置免密码登录,在此不具转载 2017-07-23 01:46:09 · 729 阅读 · 1 评论 -
map-reduce处理过程解析
这里暂时把处理过程分为2个阶段: 1、map阶段:其实就是解析出一个一个key-value 2、reduce阶段:则是得到一个key-values,把map阶段同一个key的value统计起来,形成一个values。map数:是由输入目录的文件数和文件大小决定的。 举例,4个小文件(小于64M)和一个大文件80M,默认的datanode的block大小为64M,则map数为4+2=6个。理解m原创 2017-06-24 01:30:24 · 691 阅读 · 0 评论