Hadoop系列
以学习,实战为主线,持续分享大数据相关知识
林中有神君
一定是练功的时候差不多差不多,等到关键时候就总是差一点。
展开
-
Error contacting service. It is probably not running.
记录一下自己出的问题通过命令zkServer.sh start之后,显示STARTED三台都是成功的但是查看状态却报错解决办法:关闭防火墙contos7关闭防火墙systemctl stop firewalld.service我的问题是没关闭防火墙,出错的原因还有挺多,但是按照操作步骤来的话一般是没有什么问题的具体问题还需要具体分析...原创 2021-04-23 16:50:13 · 499 阅读 · 0 评论 -
创建zookeeper客户端
1、创建一个maven工程2.添加pom文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>原创 2021-04-24 14:30:05 · 279 阅读 · 0 评论 -
zookeeper分布式安装与配置
1、上传zookeeper压缩包到服务器 /opt/software/目录下(根据自己情况定)2、解压zookeeper到/usr/app/目录下(根据自己安装的地方来)3、将解压过去到usr/app下的zookeeper改名4、在/usr/app/zookeeper/这个目录下创建zkData5、 在/opt/app/zookeeper/zkData目录下创建一个myid的文件6、 编辑myid文件,在文件中添加与server对应的编号:17、 重命名/usr/app/zookee原创 2021-04-25 11:06:05 · 98 阅读 · 0 评论 -
用最简单的例子告诉你kafka是怎么用的
1、首先打开zookeeper集群和kafka集群,三台都开上2、创建 Kafka 主题 call(在任意几点创都可以)kafka-topics.sh --zookeeper hadoop01:2181 --topic call --create --replication-factor 1 --partitions 3我这里已经创好了,所以他报错了3、检查 call 主题是否创建成功kafka-topics.sh --zookeeper hadoop01:2181 --list4、在had原创 2021-06-26 23:22:14 · 257 阅读 · 2 评论 -
org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state wo
90%的hive数据库初始化失败的原因都是配置文件没整明白,咱们可以看看hive-env.sh.template这句话的意思是:<! ——警告! ! 这个文件是自动生成的,只用于文档的目的! --><! ——警告! ! 你对这个文件所做的任何修改都将被Hive忽略。 --><! ——警告! ! 您必须在hive-site.xml中进行更改。 -->也就是说咱们在这个文件里任何操作都是没用的,所以咱们需要自己创建hive-site.xml,然后将下面的代码复原创 2021-10-24 18:36:16 · 2604 阅读 · 3 评论 -
Hive架构及基础知识
1.用户接口:Client CLI(hive shell)、JDBC/ODBC(java 访问 hive)、WEBUI(浏览器访问hive)2.元数据:Metastore 元数据包括:表名、表所属的数据库(默认是 default)、表的拥有者、列/分区字段、表 的类型(是否是外部表)、表的数据所在目录等; 默认存储在自带的 derby 数据库中,推荐使用 MySQL 存储 Metastore3.Hadoop使用 HDFS 进行存储,使用 MapReduce 进行计算。4.驱动器:Drive..原创 2021-03-03 15:36:27 · 249 阅读 · 3 评论 -
hive安装与配置详解
1、hive下载地址http://mirror.bit.edu.cn/apache/hive/2、上传至software目录下3、解压至指定目录4、重命名hive5、修改环境变量6、让环境生效7、查看hive版本8、修改hive-site.xml这里没有这个配置文件,咱们可以复制一个9、10、11、上传mysql的驱动程序到hive/lib下面12、解压到当前文件夹13、进入到 mysql-libs 文件夹下14、安装 mysql 服务端rpm -原创 2021-03-06 12:46:03 · 3160 阅读 · 4 评论 -
hive设置为本地模式,从而避免MapReduce
配置如下参数,可以开启Hive的本地模式:hive> set hive.exec.mode.local.auto=true;(默认为false)原创 2021-03-17 09:10:44 · 467 阅读 · 0 评论 -
connect to host master port 22: No route to host 问题解决方案
问题描述:connect to host master port 22: No route to host问题分析:先去ifconfig能不能出现你自己配的网卡,一般情况是不能的,或者重启网卡会启动失败,当然了使用远程连接工具也会连接不上。问题解决:系统自带的NetworkManager这个管理套件有关系,关闭并重启网络服务即可关掉方法:关闭网卡管理:systemctl stop NetworkManager禁用网卡管理:systemctl disable NetworkManager重新启动网原创 2021-11-30 23:45:27 · 8314 阅读 · 4 评论 -
CentOs 开启ssh服务
systemctl restart sshd 重启SSH服务。systemctl start sshd 启动服务systemctl stop sshd 停止服务netstat -antp | grep sshd 查看是否启动22端口systemctl enable sshd 设置SSH开机自启动。systemctl disable sshd 禁止SSH开机启动...原创 2021-11-22 11:31:37 · 1614 阅读 · 0 评论 -
hive数据库初始化失败
90%的hive数据库初始化失败的原因都是配置文件没整明白,咱们可以看看hive-env.sh.template这句话的意思是:<! ——警告! ! 这个文件是自动生成的,只用于文档的目的! --> <! ——警告! ! 你对这个文件所做的任何修改都将被Hive忽略。 --> <! ——警告! ! 您必须在hive-site.xml中进行更改。 --> 也就是说咱们在这个文件里任何操作都是没用的,所以咱们需要自己创建hive-site.xml,然原创 2021-10-24 18:31:43 · 3586 阅读 · 0 评论 -
大数据平台构建的全局配置文件/etc/profile主要参数
#jdk1.8 ENVexport JAVA_HOME=/usr/app/jdk1.8export CLASSPATH=$JAVA_HOME/lib/export PATH=$PATH:$JAVA_HOME/bin/#hadoop ENVexport HADOOP_HOME=/usr/app/hadoop2.7.3export CLASSPATH=$CLASSPATH:$HADOOP_HOME/libexport PATH=$PATH:$HADOOP_HOME/bin#hive ENV.原创 2021-03-15 13:19:51 · 221 阅读 · 0 评论 -
大数据平台搭建及搭建过程出错解析
1、安装第一台虚拟机(参照博主文章,连接如下)https://blog.csdn.net/weixin_46457946/article/details/1147588132、配置网卡(配置网卡前看看你的ifconfig命令能不能用)一般来说安装最小化界面是没有安装ifconfig命令的,需要我们手动安装参考以下文章https://blog.csdn.net/weixin_46457946/article/details/113730988配置网卡修改完后重启网卡(修改完成)3原创 2021-03-14 00:49:13 · 255 阅读 · 0 评论 -
锁定文件失败 打不开磁盘“E:\HP02\HP01-cl1.vmdk”或它所依赖的某个快照磁盘。 模块“Disk”启动失败。 未能启动虚拟机
解决办法:将框内文件删除!原创 2021-03-05 09:31:26 · 436 阅读 · 4 评论 -
ReduceTask工作机制图解
(1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。(2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。(3)Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个Ma..原创 2021-03-02 16:09:26 · 147 阅读 · 1 评论 -
MapTask工作机制图解
(1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。(2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。(3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个..原创 2021-03-02 14:44:49 · 255 阅读 · 0 评论 -
KeyValueTextInputFormat使用案例
统计输入文件中每一行的第一个单词相同的行数。(1)输入数据banzhang ni haoxihuan hadoop banzhangbanzhang ni haoxihuan hadoop banzhang(2)期望结果数据banzhang 2xihuan 2map类package KVText;import java.io.IOException;//banzhang ni haoimport org.apache.hadoop.io.LongWritable;impo原创 2021-02-26 14:45:20 · 173 阅读 · 0 评论 -
MapReduce job任务源码提交流程
waitForCompletion()submit();// 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 initialize(jobTrackAddr, conf); // 2 提交jobsubmitter.submitJobInternal(Job.this, cluster) // 1)创建给集群提交数据的Stag路径 Path jo原创 2021-02-25 23:09:55 · 99 阅读 · 0 评论 -
切片与MapTask并行度决定机制
MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。原创 2021-02-25 00:38:12 · 108 阅读 · 1 评论 -
MapReduce学习要点
1、mapreduce核心编程思想2、mapreduce的三类实例进程(MrAppMaster、MapTask、ReduceTask)3、wordcount官方案例4、MapReduce编程规范(三个部分mapper、reducer、dirver)5、本地测试、集群测试6、Hadoop序列化概述7、自定义bean对象实现序列化接口(writable)8、InputFormat数据输入9、数据切片与MapTask并行度决定机制10、job提交流程及切片源码11、FileInputForma原创 2021-02-24 22:30:09 · 133 阅读 · 0 评论 -
Hadoop序列化及案例
1、什么是序列化?序列化就是把内存中的对象,转化成字节序列(或者其他数据传输协议)以便与持久化储存到磁盘和网络传输。2、什么是反序列化?反序列化就是将收到的字节序列或者其他数据协议或者是磁盘的持久化数据转换成内存中的对象。3、为什么要序列化?序列化可以存储“活的”对象,可以将活的对象发送到远程计算机。为什么不用java序列化?java序列化是个重量级的序列化框架,一个对象被序列化后,会附带很多额外的信息,降低网络传输效率。Hadoop序列化的特点:1、紧凑2、快速3、.原创 2021-02-23 19:00:19 · 214 阅读 · 0 评论 -
MapReduce官方案例wordcount
wordcountReduce.javapackage MaperReduce;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;//reduce阶段/** 四个泛型的解释* KEYIN:K2的类型* VALUEIN:V2的类型* * .原创 2021-02-18 15:25:57 · 776 阅读 · 0 评论 -
MapReduce工作原理
MapReduce工作原理MapReduce开发一共有八个步骤,其中Map阶段分为两个步骤,shuffle阶段4个步骤,Reduce阶段分为2个步骤Map阶段;1、设置inputFormat类,将数据切分key-value(k1和v1),输入到第二步2、自定义Map逻辑,将第一步的结果转换成另外的Key-Value(k2和v2),输出结果shuffle阶段3、对输出的key-Value对进行分区4、对不同分区的数据按照相同的key排序5、对分组过的数据初步规约,降低数据的网络拷贝6、对数据原创 2021-02-17 20:18:23 · 165 阅读 · 0 评论 -
常见的HDFS API编程
package com.wyg.hdfs;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import java.net.URI;import java.net.URISyntaxException;impor原创 2021-02-17 16:16:25 · 244 阅读 · 0 评论 -
HDFS API操作的访问方式及JUnit测试类的使用
HDFS API操作的访问方式 :主要分为使用文件系统访问方式和URL访问方式package com.wyg.hdfs;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.net.MalformedURLException;import java.net.URL;import java.net.URI;.原创 2021-02-17 11:58:24 · 178 阅读 · 0 评论 -
hadoop在windows上的环境配置及HDFS API编程示范
1、将Hadoop压缩包解压放在指定目录2、Hadoop本地环境配置新建一个HADOOP_HOME添加path原创 2021-02-11 14:52:09 · 657 阅读 · 2 评论 -
hadoop fs ,hadoop dfs 和 hdfs dfs的区别以及HDFS的shell操作
hadoop fs ,hadoop dfs 和 hdfs dfs的区别1、hadoop fs: 该命令可以作用于hadoop的所有子系统2、hadoop dfs: 专门针对HDFS分布式文件系统3、hdfs dfs: 专门针对HDFS分布式文件系统,使用hadoopdfs时内部会被转为hdfs dfs命令常用命令:1、-help:输出这个命令参数2、-ls: 显示目录信息3、-mkdir:在HDFS上创建目录4、-moveFromLocal:从本地剪切粘贴到HDFS5、-appe原创 2021-02-11 14:21:13 · 1838 阅读 · 0 评论 -
HDFS组成架构
HDFS组成架构NameNode:就是Master,管理者也叫DHFS的主服务器1、管理HDFS的名称空间2、配置副本3、管理Block(数据块,一般一块是128M)的映射信息4、处理客户端读写请求DataNode:就是Slave namenode下达指令 datanode执行操作 1、储存实际信息2、执行数据块的读写操作Client:客户端1、文件切分2、与NameNode交互,获取文件位置3、与DataNode交互,读取写入数据Secondary NameNo原创 2021-02-11 14:05:18 · 258 阅读 · 3 评论 -
hadoop 权限错误 Permission denied: user=root, access=WRITE, inode=“/“:hdfs:super
这里的意思是当前hadoop命令的用户没有执行该命令的权限遇到此类权限问题:我的解决思路是1、先查看代码有没有写错2、修改你的用户权限。3、先进入该用户 再输入su hdfs,再次执行命令尝试...原创 2021-02-10 22:39:41 · 2535 阅读 · 0 评论 -
Linux环境下安装Hadoop(完全分布式)
切换到安装目录解压Hadoop压缩包修改软件名称hadoop配置切换目录将以下配置文件放在usr/app/hadoop2.7.3/etc/hadoop/目录下(这里 的文件是老师配好的,下一步自己要下去学会)配置hadoop环境让hadoop环境配置生效查看hadoop版本信息将hadoop拷贝到第二台机器上拷贝到第三台将环境变量拷贝到第二台将环境变量拷到第三台分别让配置信息生效第二台第三台格式化文件系统以.原创 2021-02-06 02:24:48 · 310 阅读 · 0 评论 -
Linux环境下的jdk安装(大数据环境)
jdk安装创建软件存放目录上传文件(我使用的MobaXterm)创建解压目录解压jdk压缩包修改软件名,使他简洁易操作配置环境变量让配置文件生效查看jdk版本信息将HP01 的usr文件夹整体拷贝到HP02 HP03目录下将HP01的环境变量也拷到HP01和HP02让HP02的环境变量生效第三台机器同理(重复操作)...原创 2021-02-06 00:38:09 · 146 阅读 · 0 评论 -
Hadoop下虚拟机的创建与克隆
创建三个虚拟机,放在指定目录修改HP01网卡配置 192.168.2.xx1修改HP02网卡配置 192.168.2.xx2修改HP03网卡配置 192.168.2.xx3测试虚拟机能否和Windows相互ping通修改HP02的名称vi /etc/hostname 删除原来的加上HP02HP03同理修改完之后重启...原创 2021-02-05 17:44:44 · 222 阅读 · 0 评论