hadoop relevant
.
落花流水i
致明日的舞
展开
-
INFO hdfs.DFSClient: Exception in createBlockOutputStream
今天在用shell命令进行put时出现了如下的报错:这两个ip地址都是我的datanode,后来联想到是我没有禁止这两个datanode的防火墙所以会出现上述的错误,我当时只是进行了关闭而已,过了一段时间再次开启hadoop时肯定这两个子节点的防火墙又变成了默认的开启状态,一查状态还真的是这样。于是果断的用systemctl disable firewalld.service把这两个子节点的防火墙的状态禁止了,在去put时就可以看到不报错了,网上还有说如果不是防火墙的原因的话可能是selinux的原创 2020-09-30 18:01:39 · 2160 阅读 · 1 评论 -
hadoop中web端口50070无法访问的解决办法汇总
1.虚拟机是Centos7下检查防火墙的状态,systemctl status firewalld.service ,如果是active的话要关闭防火墙(systemctl stop firewalld.service)或者是禁用防火墙(systemctl disable firewalld.service)。如果虚拟机是Centos6的话service iptables status (查看防火墙状态),service iptables stop (临时关闭防火墙) , chkconfig原创 2020-09-21 19:50:45 · 11586 阅读 · 7 评论 -
大数据平台CDH和Impala的使用
文章目录一、CDH的介绍二、Impala概念2.1 什么是Impala2.2 Impala的优缺点2.3 Impala的架构2.4 Impala的数据类型三、Im...转载 2020-08-09 23:56:17 · 2635 阅读 · 2 评论 -
CDH和CM介绍及搭建
[隐藏]1CDH和CM简介1.1什么是CDH1.2什么是CM1.3CM架构1.4心跳1.5CM 功能1.5.1配置管理1.5.2进程管理1.5.3软件包管理1.5.4主机管理1.5.5资源管理1.5.6用户管理1.5.7安全管理1.5.8管理服务2CM 5.14 搭建2.1环境的规划2.2主机环境准备2.3安装和配置元数据库2.4安装和配置CM2.5启动和验证CM2.6安装CDH 5.13.02.7无公网连接的安装说明3后记1.CDH和CM简介1.1.什么是CDHCDH(Cloudera’...转载 2020-08-09 23:41:19 · 4756 阅读 · 1 评论 -
关于工作流调度器Azkaban与Oozie对比
1.功能方面:Azkaban和Oozie都可以调用像shell脚本、MR、hive任务、spark、java等工作流任务,并且都可以设置任务来执行。2.关于框架:azkaban是一个轻量级的框架,开发较为简单,有良好的web界面对任务可以随时进行查看监控。oozie是一个基于hadoop的分布式的工作流调度框架,相对于azkaban的来讲oozie的web页面不是很友好,执行调度时会启动MR任务,需要使用xml文件配置工作流,有一定的难度,是一个重量级框架,从框架的重量级上来说相对于oozie而言a原创 2020-08-08 11:25:16 · 499 阅读 · 0 评论 -
Azkaban入门,部署安装和案例
目录一:Azkaban入门简介二:Azkaban的部署安装2.1:安装azkaban2.2:生成密钥对和证书2.3:时间同步配置2.4:Web server服务器和执行服务器配置2.5:启动executor服务器和web服务器三:Azkaban的应用案例3.1:单一的job案例3.2:调度shell脚本案例一:Azkaban入门简介二:Azkaban的部署安装2.1:安装azkaban1.在hadoop102上的/opt/module下创建azkaban目录[root@hadoop102 modu原创 2020-08-06 20:29:12 · 451 阅读 · 0 评论 -
oozie的调度案例
在上篇博客中介绍了关于oozie的安装相关内容,本篇来讲述一下oozie的使用案列案例一:调度shell脚本案例1)解压官方案例模板[root@hadoop102 oozie-4.0.0-cdh5.3.6]# tar -zxvf oozie-examples.tar.gz2)创建oozie-apps目录[root@hadoop102 oozie-4.0.0-cdh5.3.6]# mkdir oozie-apps3)拷贝任务模板到oozie-apps[root@hadoop102 oozie-4原创 2020-08-01 16:55:37 · 294 阅读 · 0 评论 -
Oozie的安装部署(配CDH版hadoop)
由于Oozie需要和其他框架有着良好的兼容性,为了后续的方便,我们这里在原有Apache版的hadoop情况下,在部署一个CDH版本的hadoop三:CDH版本的hadoop简单部署:(注意:本节内容是建立在我上次搭建Apache原生的hadoop下搭建的,因为在上次的搭建类似于jdk之类的我都安装了,[https://blog.csdn.net/weixin_44080445/article/details/106009359](https://blog.csdn.net/weixin_4408..原创 2020-08-01 16:47:31 · 754 阅读 · 0 评论 -
sqoop的安装和简单使用
一:sqoop简介:Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。这里需要了解一下关于的导入数据和导出数据的概念。导入数据(import):从非大数据集群(mysql,sql Server)向大数据集群(HDFS,HIVE,HBASE)中传输数据。导原创 2020-07-31 00:00:40 · 321 阅读 · 0 评论 -
HDFS中块备份的原理
Block是HDFS文件系统的最小的组成单元,它通过一个Long整数被唯一标识。每个Block会有多个副本(默认为3),为了数据的安全和高效,Hadoop默认对3个副本的存放策略如图所示。*第一块:在本地的HDFS目录下存储一个Block。*第二块:不同机架的某一个DataNode上存储一个Block。*第三块:在该机器的同一个机架下的某台机器上存储最后一个Block。这样的策略可以保证对该Block所属文件的访问能够优先在本机架上找到,如果本机架整个发生了异常,也可以在另外的机架上找到该Bloc原创 2020-05-26 11:39:02 · 1037 阅读 · 0 评论 -
ZooKeeper中API常用操作
Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。它使用一组简单的操作原语,使得分布式应用可以实现更高层次的服务——如同步、配置维护、群组和命名管理等。ZK具有高性能、高可用(复制)、有序等特征。下面是常见的zk的API操作。1.建立连接:import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.apache.zookeeper.ZooKeeper;原创 2020-05-26 10:43:30 · 190 阅读 · 0 评论 -
ZooKeeper分布式安装
集群的规划:1.在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.安装前的准备 (注:以下步骤都是在hadoop102上先进行,最后才开始配置hadoop103,hadoop104)(1).拷贝Zookeeper安装包到Linux系统下,这里我的安装包统一放在了/opt/software这个目录下。(2).解压Zookeeper到指定目录并进行配置文件的修改,这里我解压到了/opt/module/目录下。tar -zxvf zookeeper-3.4原创 2020-05-25 14:46:19 · 275 阅读 · 0 评论 -
hadoop排序之二次排序
默认情况下,在MapReduce中的shuffer阶段会自动进行排序,而且是根据key进行排序的。但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。我们把二次排序分为以下几个阶段。Map输出阶段:在 Map 阶段的最后,会先调用 job.setPartitionerClass() 对这个 Mapper 的输出结果进行分区,每个分区映射到一个Reducer。每个分区内又调用job.setSortComparatorClass() 设置的 Key 比较函数类排序。原创 2020-05-24 10:51:05 · 1308 阅读 · 0 评论 -
java.lang.Exception: java.lang.RuntimeException: java.io.EOFException
报错信息:搞了半天原来是在自定义的类中序列化中的类型写错了,另外这里强调一下序列化变量的顺序必须要和反序列化的顺序一致。原创 2020-05-23 17:32:34 · 1334 阅读 · 0 评论 -
hadoop中的几种排序方式
前言:排序是MapReduce框架中的最重要的操作之一,MapTask和ReduceTask会对数据按照key进行排序,该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。(默认的排序都是按照字典顺序进行排序,且实现该排序的方法是快速排序。)排序的分类:(1) 部分排序:MapReduce根据输入记录的键对数据集排序,保证输出的每个文件内部有序。这种排序通常情况下是生成多个文件,例如在最后生成的文件是水果销量top10,服装销量top10,化妆品销量的top10原创 2020-05-23 17:15:20 · 1566 阅读 · 0 评论 -
hadoop中的Partition分区案例
先来看一下默认的Partitionpublic class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key, V value, int numReduceTasks) { return (key.has原创 2020-05-21 17:34:22 · 574 阅读 · 0 评论 -
hadoop中序自定义bean对象实现序列化接口
需求分析:如下所示,统计每一个手机号耗费的总上行流量、下行流量、总流量。数据依次为 id 手机号 ip地址 域名 上行流量 下行流量 状态码预期的输出格式:13736230513 2481 24681 27162案例分析:代码过程:1.自定义bean对象:import java.io.DataInput;import java.io.D原创 2020-05-15 23:42:51 · 583 阅读 · 0 评论 -
hadoop处理小文件例子
在hadoop中,CombineTextInputFormat主要用来处理小文件,原创 2020-05-15 09:07:21 · 169 阅读 · 0 评论 -
hadoop中InputFormat的输入格式
hadoop中自带了许多的输入格式,其中有一个抽象类是FileInputFormat,所有操作文件的InputFormat类都是从这里继承功能和属性,当开启一个hadoop作业时,FileInputFormat会得到一个路径参数,这个路径包含了所需要处理的文件,FileInputFormat会读取目录中的所有文件,然后通过把这些文件拆分成一个或多个切片。可以通过Job对象的setInputFormatClass来设置文件的输入格式。...原创 2020-05-14 10:41:41 · 949 阅读 · 0 评论 -
hadoop中的序列化
序列化:序列化就是把内存的对象,转换成为字节序列(或者是其他的数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化:就是将收到的字节序列(或者其他的数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要进行序列化:因为序列化后可以很方便的存储或者在网络中传输(不进行序列化的话无法将本地的数据通过网络发送到另一台计算机上)。从服务器硬盘上把序列化的对象取出,然后通过网络传到客户端,再由客户端把序列化的对象读入内存,执行相应的处理。hadoop文件的序列化为什么不采用java的序列化机原创 2020-05-13 21:40:10 · 216 阅读 · 0 评论 -
hadoop入门之WordCount程序
Mapper阶段:import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordcountMapper extends Mapper<LongWrita原创 2020-05-12 16:02:27 · 216 阅读 · 0 评论 -
NameNode出现故障的处理方法
在集群的运行过程中,可能会出现NameNode宕机的情况,在这里我贴出来一个有效的办法来解决NameNode的方法。在主节点上面jps查看NameNode进程,然后 kill -9 NameNode进程号2.删除主节点上NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name,这一步根据自己的目录来进行修改)找到SecondaryNameNode部署的那台机器(这里我的是部署在了hadoop104上面,所以就在这个机器上面进行操作),拷贝原创 2020-05-10 20:20:40 · 1238 阅读 · 0 评论 -
HDFS文件系统中对文件进行增删改等操作
import org.apache.hadoop.fs.Path;import org.apache.hadoop.fs.RemoteIterator;import org.junit.Test;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apach原创 2020-05-10 19:25:10 · 838 阅读 · 0 评论 -
hadoop全分布式搭建教程(非常详细)
申明:在看本博客之前:请务必完全按照以下的步骤去做完全一样的的,不要去修改,否则容易出错。在VM上新建一台虚拟机hadoop100,然后从这台原始的hadoop100虚拟机上面克隆三台虚拟机,hadoop101是我搭建伪分布用的一台机器大家请忽略,102,103,104都是我用来做全分布式的机器,随后在这102,103,104三台机器上面修改网卡配置文件,网卡配置文件在/etc/sysyconfig/network-scripts/ifcfg-ens33(注,我的网卡信息是ens33,每个人的网原创 2020-05-09 14:53:59 · 9414 阅读 · 0 评论 -
hadoop中hdfs常用shell命令
-help:输出这个命令的可选参数2. -ls: 显示目录信息 (如果是查看该目录下的内容可以加上-R选项递归来查看)原创 2020-05-07 10:34:41 · 380 阅读 · 0 评论 -
namenode多次格式化以后datanode启动后秒挂
在格式化之前可以现去hadoop目录下的打开 etc/hadoop里面的core-site文件查看hadoop运行时临时文件的产生的位置,我的位置是在/data/tmp中进到/data/tmp/dfs发现里面有一个data和name目录分别打开这两个目录下的VERSION文件你会发现namenode的集群号和datanode的集群号一模一样所以他们之间可以互相通信,jps查看得时候...原创 2020-05-05 10:59:05 · 520 阅读 · 1 评论 -
win10可以ping通linux的ip但ping不通ip对应的主机名
报错:方法1 :修改linux中的配置文件 vi /etv/hosts在里面添加一个IP映射 例如我的ip地址为xxx 主机名为hadoop101那就直接在文件中写入 xxx hadoop101保存退出然后重启linux 在windows里面ping 主机名看是否可以ping通,如果不行的话看方法2方法2:去windows中找到 C:\Windows\System...原创 2020-05-05 10:01:31 · 1437 阅读 · 0 评论 -
hadoop的目录树结构
先看一下hadoop目录下有哪些内容bin: 此目录下放着Hadoop一些管理脚本和使用脚本所在的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。etc: 此目录下放着一些重要的配置文件,比如hdfs-site.xml、mapred-site.xml,yarn-site.xml,core-site.xml。lib: 该目录下存放...原创 2020-05-04 14:58:16 · 402 阅读 · 0 评论