Hadoop
攻城狮Kevin
爱学习,爱工作,爱生活
展开
-
HDFS数据存储,文件块与spark的分区概念
HDFS中数据以文件块的形式存储在DataNode上,比如一个1GB的数据文件,会切分成多个128M的文件块,数据写入存储的时候,每个128M文件块会存放在一个DataNode上,同时通过机架感知,在最近的两个DataNode节点上分别存放2个副本文件。ps:极限情况,如果128M文件块的个数超过DataNode的个数,会随机选出DataNode存放多余的文件块,但是一个128M文件块只存储在一个DataNode中,机架感知出最近的两个DataNode存放其副本。这样spark在读取HD原创 2022-01-05 12:21:06 · 1369 阅读 · 0 评论 -
Hadoop和Spark的前世今生 & MR、Yarn、Spark架构原理
目录架构原理总图一、Hadoop的历史-> 1.0版本 -> 缺点-> 2.0版本-> MapReduce架构组成:-> Yarn架构组成和运行原理:二、Spark的历史-> Spark架构组成-> Driver和Executor架构原理总图一、Hadoop的历史...原创 2019-01-23 21:44:16 · 1224 阅读 · 0 评论 -
java -cp和java -jar的区别 &【MR提交到yarn的api】
java -cp和java -jar都是运行jar包,区别在于前者需要自行指定主类,后者必须jar包中指定了主类用maven导出的包中,如果没有在pom文件中将依赖包打进去,是没有依赖包。1.打包时指定了主类,可以直接用java -jar xxx.jar。2.打包时没有指定主类,可以用java -cp xxx.jar 主类名称(绝对路径)。至于MR提交到yarn上,代码块如下...原创 2019-06-19 15:14:38 · 689 阅读 · 0 评论 -
MapReduce中的job类(创建资源环境 & 初始化job属性)和main方法
对于MR程序一般会extends和implements如下public class XXX extends Configured implements Tool {实现接口Tool的run方法,就是job类public interface Tool extends Configurable { int run(String[] var1) throws Exception;...原创 2019-05-23 21:46:20 · 2745 阅读 · 0 评论 -
MapReduce中控制输出文件命名 & 单个reducer写出多个输出文件——MutipleOutputs
在MR job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径进行设置。在输出目录中,框架自己会自动对输出文件进行组织和命名:一般情况下,Hadoop中每个Reducer对一个相同key的value做归并后,产生一个输出文件,并且文件以part-r-00000,part-r-00001的方式命名;但是如果需要人为控制Reducer端输出...原创 2019-05-23 21:14:30 · 1418 阅读 · 0 评论 -
MapReduce编程中FileSystem接口——HDFS的基本使用
基本的HDFS操作,在linux总通过hadoop fs -help可以获取所有的命令详细帮助文件。Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。Hadoop中关于文件操作类基本上全部是在"org.apache.hadoop.fs"包中,这些API能够支持的操作包含:打开文件,读写文件,删除文件等。Hadoop类库中最终面...原创 2019-05-24 15:41:31 · 863 阅读 · 0 评论 -
MapReduce编程——输入类FileInputFormat(切片)及其4个实现类(kv)的用法
一个完整的MapReduce程序包括四个阶段:Map Task阶段、Shuffle阶段、Reduce Task阶段InputFormat是一个抽象类,用于获取Input输入数据,并将其切分和打成<k,v>键值对;这个类中有两个抽象方法,源码如下:public abstract class InputFormat<K, V> { public Input...原创 2019-05-15 16:22:16 · 1905 阅读 · 1 评论 -
hadoop生态圈的各种常用端口号记录
1. hdfs:500702. NameNode:90003. SecondaryNameNode:500904. DataNode:500105. yarn:80886. 历史服务器Web端口:198887. kibana:56018. ElasticResearch:92009. Cerebro:900010. spark:404011. TomCat:...原创 2019-02-10 20:32:56 · 982 阅读 · 0 评论 -
解决克隆虚拟机后Xshell连接不上的问题(CentOS6、CentOS7修改ip和主机名)
克隆虚拟机,新生成的服务器,需要修改成新的ip才能连接Xsehll以下操作都需要root用户登录,或者用sudo命令一、CentOS6版本(1)修改etc下的70-persistent-net.rules文件[root@hadoop104 /]#vim /etc/udev/rules.d/70-persistent-net.rules把eth0那一行删掉,把eth1那一行...原创 2019-01-03 11:29:43 · 4920 阅读 · 4 评论 -
Hadoop集群时间同步配置
hadoop集群时间同步:设定一台机器为标准时间服务器,其余所有的机器都与这台服务器时间定时同步,eg:每隔10min,同步一次时间。准备条件:三台已经安装完成的虚拟机集群hadoop100、hadoop101、hadoop102单台虚拟机的ip分别为192.168.5.100、192.168.5.101、192.168.5.1021. 检查ntp是否安装2. 修改ntp配置文...原创 2018-12-18 18:51:13 · 2482 阅读 · 0 评论 -
【Hadoop】MapReduce编程之WordCount案例
一、需求给定文本文件如下,要求统计输出文件中每个单词的总个数。(1)原始数据 (2)期望输出数据 二、需求分析按照MapReduce编程规范,分别编写Mapper,Reducer,Driver(1)Mapper① 将MapperTas...原创 2018-11-26 20:12:29 · 815 阅读 · 0 评论 -
【搭建Hadoop集群】hadoop运行环境的搭建篇——虚拟机准备(看一篇成高手系列01)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wx1528159409目录1. 在VMware Workstation下安装CentOs,新建虚拟机并安装VMtools2. 修改虚拟机IP,联网并连接Xshell3. 修改主机名4. 修改linux和win10中的hosts文件5. 关闭防火墙6. 创建自定义用户k...原创 2018-11-18 12:55:35 · 1507 阅读 · 1 评论 -
一篇讲懂为什么HDFS文件块(block)大小设定为128M
最近看到这个面试问题,CSDN搜了半天也没有确切答案,查询资料思考后总结如下:我们在HDFS中存储数据是以块(block)的形式存放在DataNode中的,块(block)的大小可以通过设置dfs.blocksize来实现;在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M;目录一、为什么HDFS中块(block)不能设置太大,也不能设置太小?二、 ...原创 2018-11-19 21:33:19 · 18167 阅读 · 14 评论 -
Hadoop客户端环境准备(附IDEA免费激活码及补丁破解教程)
版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/wx1528159409HDFS的API操作就是将之前在linux中用shell命令对文件上传、下载、删除、重命名、详情查看等操作在IntelliJIDEA软件中进行实现。博文主要分享IDEA客户端环境的准备,并附上IDEA免费激活码和补丁破解教程(见目录5、6)。目录1. 拷贝...原创 2018-11-22 17:12:33 · 1271 阅读 · 0 评论 -
大白话告诉你,hadoop到底是个什么鬼
hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管...转载 2018-11-16 10:42:25 · 3853 阅读 · 5 评论 -
【搭建Hadoop集群】hadoop完全分布式运行模式(看一篇成高手系列03)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wx1528159409目录一、编写分发脚本xsync1. 在home/kevin/bin目录下创建分发脚本文件xsync2. 编写xysnc脚本文件3. 修改脚本执行权限4. 分发脚本二、配置SSH免密登录1. 生成密钥对2. 将公钥发送到本机3. ...原创 2018-11-19 05:39:55 · 1416 阅读 · 1 评论 -
【搭建Hadoop集群】hadoop运行环境的搭建篇——安装JDK和Hadoop(看一篇成高手系列02)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wx1528159409目录一、安装JDK1. 卸载现有JDK2. 在Xshell中将JDK导入/opt/software目录下3. 进入JDK安装包路径 /opt/software,查看是否导入成功4. 解压安装JDK到/opt/module目录下 5. 配置JDK...原创 2018-11-18 22:13:23 · 1913 阅读 · 1 评论