MapReduce
道法—自然
不积跬步,无以至千里;不积小流,无以成江海。——荀子
展开
-
hadoop的持久化
namenode描述的是一个大的文件进入集群的时候的元数据。secondary不是namenode的副本,而是帮助namenode将小文件合并起来的。namenode启动的流程:①fsimage加载②edits加载③产生一个新的fsimage④产生一个空的edits所谓的格式化就是进行初始化的过程。首先是格式化,其次才是启动hdfs只有在启动的时...原创 2018-12-18 21:59:26 · 558 阅读 · 0 评论 -
MapReduce写代码的流程,以及需要继承的超类
package tq;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.ScanPerformanceEvaluation.MyMapper;import org....原创 2018-11-30 23:55:33 · 1697 阅读 · 0 评论 -
百度面试总结:MapReduce中的超类有哪些
MapReduce中的类以及超类:package wordcount;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org....原创 2018-12-01 10:53:53 · 510 阅读 · 0 评论 -
MapReduce中计算Wordcount中map端及reduce端的设置
map端的设置: package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hado...原创 2018-11-30 23:55:18 · 235 阅读 · 0 评论 -
mapreducde中的超类
package com.sxt.hadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apa...原创 2018-11-30 23:52:36 · 203 阅读 · 0 评论 -
明日学习
MapReduce中的超类MapReduce的计算流程,几个partition,merge,sort基于yarn的模式SQL 语句原创 2018-11-30 00:35:20 · 231 阅读 · 0 评论 -
MapReduce总结
MapReduce:在数据被切分以后,进入map阶段,会向环形缓冲区中写入数据。环形缓冲区的大小默认是100m,split的大小默认是128M。在环形缓冲区中一边写入数据,一边写入这些数据的索引。当达到80%以后,这部分会被锁定,往剩下的20%中写入数据,一边写入索引,一边写入数据。这样值循环。假如缓冲区都写满了,数据还没有溢写到磁盘,那么map就会阻塞,不再往里边写数据了。map端溢写的时...原创 2018-11-25 12:17:17 · 292 阅读 · 0 评论 -
MapReduce的工作原理
前言:前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅,亮仔,谢总•••搞起来啊!呵呵,下面我们进入正题...原创 2018-11-24 23:58:29 · 189 阅读 · 0 评论 -
hdfs+yarn参数的调优
hdfs+yarn 参数调优1.系统参数调整中文名称 英文名称 默认值 推荐值或推荐策略 修改命令 作用 备注 socket的监听队列最大值 net.core.somaxconn 128 1024或更大 echo 1024 >/proc/sys/net/core/somaxconn 增大打开文件数据和网络连接上限,...原创 2018-10-05 09:06:46 · 697 阅读 · 0 评论 -
MapReduce中shuffle(copy,sort,merge的过程)
Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么,那么请看这张图: 这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事实相差挺多,细节也是错乱...原创 2018-09-11 09:20:03 · 424 阅读 · 0 评论 -
MapReduce如何解决数据倾斜问题
前言:数据倾斜是日常大数据查询中隐形的一个BUG,遇不到它时你觉得数据倾斜也就是书本博客上的一个无病呻吟的偶然案例,但当你遇到它是你就会懊悔当初怎么不多了解一下这个赫赫有名的事故。当然你和数据倾斜的缘分深浅还是看你公司的业务逻辑和数据量有没有步入数据倾斜的领地。 说明:关于数据倾斜的产生原因我将结合 map 和 reduce 阶段中的 shuffle 来讲解,若是对 shuffle 有...原创 2018-09-11 09:14:12 · 3647 阅读 · 0 评论 -
Google三大理论(论文)
Google引爆大数据时代的三篇论文谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!一,GFS—-20032003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统...原创 2018-11-30 23:55:49 · 1572 阅读 · 0 评论 -
MapReduce的整个详细过程
原创 2018-11-30 23:56:03 · 1155 阅读 · 0 评论 -
MapReduce中各个阶段的分析
MapReduce中各个阶段的分析:在MapReduce的各个阶段:在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read(一行) 。在这里读入一行,返回的是(k,v)的形式,key是行号的偏移量,value的值是这一行的内容。在上述的过程中,之后是调用map方法,将以上内容转换成正真的(key,v...原创 2018-11-30 23:56:16 · 14113 阅读 · 10 评论 -
MapReduce的引入
思路:并行是提升速度的关键点。可以通过增加服务器的方式去实现。通过用集群跑的方式,代替单机跑。 hdfs是存储层,MapReduce是计算层。原创 2018-12-18 20:10:01 · 140 阅读 · 0 评论 -
MapReduce的源码分析
map端的输出是reduce端的输入。切片的信息设置块的最大值和最小值设置切片的最大值和最小值设置reduce task的个数如果reduce环节为0,那么就是说没有reduce环节如果reduce的个数不为零,那么reduce阶段就有两个环节:分区和排序map阶段有一个run方法 偏移量:map端的源码分析:...原创 2018-12-23 12:43:32 · 228 阅读 · 0 评论 -
hadoop集成yarn高可用HA的搭建
1、修改配置文件;具体的修改内容为:mapred-site.xml:<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>原创 2018-12-22 18:57:26 · 458 阅读 · 0 评论 -
hadoop的yarn
yarn是独立的资源管理框架yarn也是主备模式MapReduce on yarn原创 2018-12-22 16:48:10 · 194 阅读 · 0 评论 -
MapReduce的原理
MapReduce中map对应的是块的个数MapReduce的源语是:相同的key为一组,这一组key调用一次reduce方法 切片:切片的大小是可以定义的。定义切片的命令;[root@node12 ~]# hdfs dfs -D dfs.blocksize=1048576 -put test.txt 一个切片对应一个mapmap的个数由切片的数量决定切片的个数...原创 2018-12-22 16:33:30 · 182 阅读 · 0 评论 -
MapReduce的测试
package com.bjsxt.mr;import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import org.apache.h...原创 2018-12-22 14:57:10 · 530 阅读 · 0 评论 -
eclipse开发MapReduce
在使用中,我们往往会用eclipse进行MapReduce的开发工作:1、首先将开发所需要的jar包放在一个干净的目录下:2、配置相应的环境变量 3、配置eclipse:将hadoop-eclipse-plugin放在eclipse的插件下:eclipse最好是mar这个版本4、将给定的bin目录下的文件放在部署好的hadoop的bin目录下5、将ha...原创 2018-12-22 13:06:30 · 938 阅读 · 0 评论 -
spark的三种模式的详细运行过程(基于standalone与基于yarn)
一、Standalone模式1、使用SparkSubmit提交任务的时候(包括Eclipse或者其它开发工具使用new SparkConf()来运行任务的时候),Driver运行在Client;使用SparkShell提交的任务的时候,Driver是运行在Master上2、使用SparkSubmit提交任务的时候,使用本地的Client类的main函数来创建sparkcontext并初始化它...原创 2018-12-01 21:39:43 · 3048 阅读 · 0 评论 -
MapReduce中自定义分区
package tq;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.mapreduce.Partitioner;public class MyPartition extends Partitioner<TQ, IntWritable>{ @Override public int get...原创 2018-12-01 19:44:26 · 228 阅读 · 0 评论 -
MapReduce中自定义比较
package tq;import org.apache.hadoop.io.WritableComparable;import org.apache.hadoop.io.WritableComparator;public class MySortComparator extends WritableComparator{// public MySortComparator() ...原创 2018-12-01 19:42:46 · 131 阅读 · 2 评论 -
同现矩阵的概念(待完善)
同现矩阵:原创 2018-09-24 23:42:38 · 991 阅读 · 2 评论 -
协同过滤与同现矩阵
协同过滤与同现矩阵:原创 2018-09-24 23:09:47 · 1969 阅读 · 0 评论 -
MapReduce部分练习使用其API编程(用户推荐,协同过滤,同现矩阵等)
在MapReduce中reduce的格式个分区的格式一样,也就是和partition的个数是一样的。1、package com.sxt.hadoop.itemcf;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;public class Sta...原创 2018-09-24 22:44:02 · 398 阅读 · 0 评论 -
hadoop三大核心之一:MapReduce的运行框架
原创 2018-09-12 21:22:04 · 371 阅读 · 0 评论 -
hadoop三大核心之一:MapReduce的工作原理
原创 2018-09-12 21:15:13 · 352 阅读 · 0 评论 -
MapReduce:Job性能调优总结
MapReduce:Job性能调优总结硬件级别 提高磁盘IO的性能 noatime 我为两台slaves server设置了noatime. vi /etc/fstab.map task的平均执行时间减少两秒,这影响硬盘IO的性能,shuffle的时间也相应地减少了1分钟,不影响reduce的执行时间 client端设置 map与reduce task数量 map task的数量由s...原创 2018-09-12 20:53:05 · 298 阅读 · 0 评论 -
MapReduce详解:Shuffle(copy,sort,merge,combiner)过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所...原创 2018-09-12 20:44:17 · 1003 阅读 · 1 评论 -
MapReduce的Wordcount
什么是shuffle:就是reduce从map端拉取数据的过程。原创 2018-09-06 22:05:26 · 104 阅读 · 0 评论 -
MapReduce中combiner类
Combiner类是用于提高MapReduce的性能,作用在Map与Reduce之间,减少Mapper的输出和Reduce的压力。图1 基本流程例:计算出apat63_99.txt中,每个国家专利声明的平均数图2原始数据 在这份数据中,每一条都记录了专利号、批准年、批准日、申请年、第一发明人国家、第一发明人所在州、专利权人、专利权人类型、声明数目、主要专利类型等,而我们需要的就是利用...原创 2018-09-12 08:55:48 · 297 阅读 · 0 评论 -
MapReduce中combiner详解
MapReduce中combiner详解问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个<key,value>键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数...原创 2018-09-12 08:52:09 · 954 阅读 · 0 评论 -
MapReduce部分:MapReduce的运行(工作)原理介绍
MapReduce2.x架构,(最大的改进是增加了namenode,防止一个挂掉有另一个可以起来顶替) MapReduce就是分而治之的理念,把一个复杂的任务划分为若干个简单的任务分别来做。把一些数据通过map来归类,通过reducer来把同一类的数据进行处理。map的工作就是切分数据,然后给他们分类,分类的方式就是以key,value(键值对) 分类之后,reduce拿到的都...原创 2018-08-20 23:34:18 · 339 阅读 · 0 评论 -
MapReduce部分:MapReduce架构图
---------------------------------------------------------------------------------------------------------------------------------------------------------------------原创 2018-08-25 23:16:12 · 1228 阅读 · 0 评论 -
配置NGINX服务器【全】
安装之前准备1、依赖 gcc openssl-devel pcre-devel zlib-devel 安装:yum install gcc openssl-devel pcre-devel zlib-devel -y安装Nginx./configure make && make install默认安装目录:/usr/local/nginx配置Nginx为...原创 2018-08-26 09:15:42 · 276 阅读 · 0 评论 -
Apache Hadoop YARN: 背景及概述
Apache Hadoop YARN: 背景及概述从2012年8月开始Apache Hadoop YARN(YARN = Yet Another Resource Negotiator)成了Apache Hadoop的一项子工程。自此Apache Hadoop由下面四个子工程组成:Hadoop Comon:核心库,为其他部分服务 Hadoop HDFS:分布式存储系统 Hadoop M...原创 2018-09-12 23:15:01 · 590 阅读 · 0 评论 -
MapReduce版Wordcount的书写
主方法:package com.bjsxt.sn;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.mapreduce.Job;import org...原创 2018-09-07 08:38:00 · 149 阅读 · 0 评论 -
MapReduce中源码分析(map端及reduce端的过程)
MapReduce中的源码分析:map端的源码分析:MapReduce阶段,map中key面向文章的偏移量=上一行面向文章的偏移量+本行相对于上一行的偏移量+本单词相对于本行的偏移量。这个key为本单词相对于文章的偏移量这个是MapReduce中map的输出,调用context的write方法,前边对应的是key,后边对应的是value的值。在方法被调用的时候,方法中参...原创 2018-09-23 11:18:36 · 2060 阅读 · 1 评论