Hadoop
Geek白先生
摆正心态,与时俱进
展开
-
HDFS小总结、一些dfsadmin命令
HDFS体系结构namenode守护进程的作用1)维护hdfs集群元数据的镜像文件【fsimage】 【fsimage】包括:文件属性信息,文件与blook块的对应关系,不包括块的位置信息2)维护客户端对hdfs的相关操作,并记录到edits_log3)接受来自所有datanode的心跳汇报,内容:块的信息与所属节点位置datanode守护进程的作用1)负责实时监控当前节点的运行...原创 2019-08-02 19:15:06 · 2211 阅读 · 0 评论 -
Mapper类的分析
作用将输入键值对<k1,v1>映射到一组中间键值对<k2,v2>,转换后的中间记录不必与输入记录的类型相同MapReduce通过每个Inputspilt(切分)生成对应的Maptask(map任务),而Inputsplit(切分)则由InputFormat类生成Mapper类中是可以得到Configuration对象,通过JobContext 上下文 getCon...原创 2019-08-16 00:06:23 · 2321 阅读 · 0 评论 -
MapReduce的第一道例题(计算文件中的词频)
MapRedue的思想“分而治之”MapReduce是Hadoop提供的一套分布式并行计算框架,通过键值对<key,value>进行数据传输MapReduce框架为每个提交集群的Job(作业),通过计算InputSplit(切分),来分配map task两个阶段:Map(映射或并行阶段)Map是将输入记录转换为中间记录,转换后的中间记录不必与输入记录的类型相同。给定的输入对...原创 2019-08-14 00:23:01 · 512 阅读 · 0 评论 -
URL读数据、Configuration类、HDFS 的API操作
从Hadoop URL 读取数据使用java.net.URL对象文件打开数据流,从hadoop文件系统中读取文件。让java程序能识别Hadoop中的hdfs URL方案还需要做一些工作:通过 FsUrlStreamHandlerFactory 实例调用 java.net.URL对象的 setURLStreamHandlerFactory()方法每个Java虚拟机只能调用一次这个方法,因此...原创 2019-08-07 00:01:10 · 792 阅读 · 0 评论 -
partition分区
partition:用来指定map输出的key交给哪个reuducer处理默认是通过对map输出的key取hashcode对指定的reduce个数取余partition数决定reduce数,业务又决定reduce数默认情况下,作业的ReduceNum=1,每一个Reduce对应生成一个结果文件。如果ReduceNum=0,则没有reduce阶段。partition如何分区:默...原创 2019-08-18 16:20:16 · 2902 阅读 · 0 评论 -
在eclipse里配置hadoop插件
本次配置所需文件提取:链接: https://pan.baidu.com/s/14O45kJPkTA6JP83qbao2Ag 提取码: i2fq一、将hadoop-eclipse-plugin-2.6.0.jar复制到你的eclipse安装目录下plugins文件夹中二、自定义路径解压安装hadoop2.7.3【我安装的是hadoop2.7.3的版本】三、配置环境变量,配置环境变量...原创 2019-08-06 17:16:24 · 279 阅读 · 0 评论 -
hadoop搭建完全分布式
搭建完全分布式具体步骤安装jdk(省略)安装hadoop(省略)配置环境变量(省略)设置无密登录(省略)设置hadoop配置文件(省略)克隆三个虚拟机【右键】–> 【管理】–> 【克隆】–> …【创建完整克隆】–> 【设置虚拟机路径】关闭防火墙$>chkconfig iptables --list修改静态IP+修改主机名...原创 2019-08-01 23:54:02 · 126 阅读 · 0 评论 -
hadoop修改默认的文件存储路径
在自建用户下创建文件夹tmp例如:/home/dragon/tmp修改core-site.xml文件【存放在hadoop的安装路径/etc/hadoop】 <property> <name>hadoop.tmp.dir</name> <value>/home/dragon/tmp/hadoop-${user.name}</va...原创 2019-08-01 15:26:25 · 3925 阅读 · 0 评论 -
HDFS启动流程、安全模式、checkpoint
一、分布式文件系统采用主Master/从Slaves结构1)namenode守护进程作为Master节点:维护hdfs的元数据信息[镜像文件+编辑日志]2)datanode守护进程作为Slaves节点:以Block(块)的形式存储数据。二、HDFS启动流程Loading fsimage【加载镜像文件】解释:镜像文件里存的就是元数据,默认情况下只保留最新的两个镜像文件首次加载集群时,...原创 2019-08-05 00:23:53 · 664 阅读 · 0 评论 -
bolck块、默认块大小的调大和调小
block介绍hadoop默认情况下,一个block块大小为128m。HDFS以block块的形式存储在集群上,默认生成三份副本,存储在【${hadoop.tmp.dir/dfs.data}】目录下HDFS中小于一个块大小的文件不会占满整个快的空间,文件有多大占多大空间块是物理存在的,以文件的形式存储在数据节点datanode中,例如:block块大小设置合理性a.磁盘存储设备:机...原创 2019-08-04 17:55:27 · 2545 阅读 · 0 评论 -
组成、默认配置文件、开启和关闭守护进程、守护进程异常、格式化
hadoop的组成Hadoop Common:支持其他Hadoop模块的公共实用程序Hadoop Distributed File System (HDFS):提供对应用程序数据的高吞吐量访问的分布式文件系统Hadoop YARN:作业调度和集群资源管理框架Hadoop MapReduce:一种基于YARN的大型数据集并行处理系统查询默认配置文件路径core-site.x...原创 2019-07-31 13:43:21 · 204 阅读 · 0 评论 -
hadoop搭建伪分布模式详细步骤
hadoop集群搭建的三种模式Local (Standalone) Mode:本地模式 [Hadoop被配置为作为单个Java进程以非分布式模式运行。主要用于debug]Pseudo-Distributed Mode:伪分布模式 [Hadoop伪分布模式运行在单节点上,每个hadoop守护进程占用单独的java进程]Fully-Distributed Mode:完全分布式模式...原创 2019-07-30 22:44:25 · 681 阅读 · 0 评论 -
例题:MR求年龄文件中奇数行和偶数行的平均值
解题思路将原有的<k1,v1>(偏移量,行值) --> <k1,v1>(行号,行值),使其按行号一行一行的读重写TextInputFormat类构建【LineNumInputFormat.class】类 作用:创建行号阅读器和设置可切分重写俩个方法–>createRecordReader()return new LineNumRecordRea...原创 2019-08-18 11:03:47 · 225 阅读 · 0 评论