hadoop
勤径苦舟
书山有路勤为径,学海无涯苦作舟。只技术分享,非商业行为,我很少看消息,所以你们给我发的消息回的很少。
邮件:920786312@qq.com
微信:zhou920786312
展开
-
用通俗易懂的话说下hadoop是什么,能做什么
hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管...转载 2018-12-29 16:20:30 · 256 阅读 · 0 评论 -
mapreduce参数优化
MapReduce重要配置参数11.1 资源相关参数//以下参数是在用户自己的mr应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task...转载 2019-03-12 18:01:05 · 597 阅读 · 0 评论 -
找出QQ共同好友的实现
以下是qq的好友列表数据,冒号前是一个用,冒号后是该用户的所有好友(好友关系是单向的,也就是说A是B好友,B不一定是A好友)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,F...原创 2019-02-11 21:52:40 · 2858 阅读 · 0 评论 -
数据倾斜的思路分析+map端join实现+倒排索引实现
1什么是数据倾斜 解决解决方法1让数据数据不要去reduceTask,在mapTask就进行处理(利用distributeCache)map端join实现public class MapSideJoin { public static class MapSideJoinMapper extends Mapper<LongWritable, Text, Text,...原创 2019-02-11 21:06:45 · 588 阅读 · 0 评论 -
reduce端join算法实现
数据订单数据表order: date pid amount 20150710 P0001 2 20150710 P0002 3 商品信息表product pid ...原创 2019-02-02 00:22:45 · 356 阅读 · 0 评论 -
MAPREDUCE实战
测试前先启动hadoop[hadoop@mini-yum ~]$ start-dfs.sh[hadoop@mini-yum ~]$ start-yarn.sh 1在一堆给定的文本文件中统计输出每一个单词出现的总次数代码package cn.feizhou.wcdemo;import org.apache.hadoop.conf.Configuration;im...原创 2019-01-27 21:43:58 · 948 阅读 · 0 评论 -
MAPREDUCE原理+mapreduce和yarn的工作机制+mapreduce&yarn的工作机制
MAPREDUCE是什么一个分布式运算程序的编程框架能将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上为什么要MAPREDUCE因为它能解决海量数据的分析整体结构MRAppMaster(mapreduce application master):负责整个程序的过程调度及状态协调 MapTask:负责map阶段的整...原创 2019-03-12 18:00:22 · 354 阅读 · 0 评论 -
secondary namenode元数据checkpoint机制
将机制前先明确下面的几点namemode保存的元数据是在内存中的namenode一般有128G一个元数据大小为150B,记录一个块(0-128M)。所以hadoop不适用存储一个小文件。secondary namenode也是在内存中操作secondarynamenode元数据checkpoint机制当客户端不断发出命令的时候,namenode都做了什么?...原创 2019-03-12 18:02:09 · 686 阅读 · 3 评论 -
HDFS读数据流程
读数据的过程:案例某个文件上传后被切割成3个块,分别保存在这几个datanode中black1(dn1,dn3,dn4),black2(dn1,dn4,dn5) ,black3(dn2,dn3,dn4)。1 客户端问namenode,我的文件/aa/cls.avi在哪里。2 namenode根据路径/aa/cls.avi到元数据查到保存的纪录信息。并发给客户端...原创 2019-03-12 20:13:32 · 271 阅读 · 0 评论 -
HADOOP集群搭建
安装步骤机器mini_yum,mini2,mini3,mini4注意:下面的步骤在4台机子上都要做的操作1先将虚拟机的网络模式选为NAT2修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=xxxx ###3修改IP vim /etc/sysconf...原创 2019-01-02 23:58:46 · 162 阅读 · 0 评论 -
hdfs写数据流程
上面图看不懂没关系,下面我有简单语言说明下其过程。现在客户端要上传一个300M的文件。1客户端先请求namenode,告诉namenode我有上传一个叫作cls_初解禁的文件。2namenode检查元数据中是否有这个文件,有就告诉客户端这个文件已存在,没有就告诉客户端你可以上传了3客户端收到namenode可以上传的消息,这个时候客户端将300M切片,将第一个black(...原创 2019-03-12 20:13:38 · 348 阅读 · 0 评论 -
hadoop nameNode和dataNode怎么管理
mini4(dataNode)的文件怎么知道mini-yum(nameDate)的呢?或者说别的集群的nameNode可以加入到当前的mini-yum中吗?首先查看dataNode的文件信息下图有2处重要的信息第一个红框的内容是怎么来的呢,其实第一个红框的内容是来自namenode,怎么说?请看namenode的信息有上图可以知道,datanode的版本信息来自...原创 2019-03-12 18:01:36 · 1063 阅读 · 0 评论 -
hadoop的介绍
1HADOOP简介 什么是HADOOPHADOOP可以对海量数据进行分布式处理 HADOOP的核心组件有 HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈HADOOP在大数据、云计算中的位置和关系云计算是分布式计算、并行计算、网格计算、多核计...原创 2019-01-01 22:35:18 · 875 阅读 · 0 评论 -
hdfs的高可用机制+yarn的高可用+hadoop的联邦机制(namenode的水平扩展)
hdfs的高可用机制图yarn的高可用hadoop的联邦机制(namenode的水平扩展)原创 2019-02-13 20:57:00 · 825 阅读 · 0 评论