Hadoop
文章平均质量分 71
yhblog
虚拟世界里面有很多值得我们学习,深思的东西!
展开
-
ResourceManager HA无法连接Spark TrackUi
在YARN集群上执行Spark application后, 打开Spark Application Tracking UI显示以下错误:HTTP ERROR 500Problem accessing /proxy/application_1405708541410_0001/. Reason: Connection refusedCaused by:java.net.C...原创 2020-04-26 15:49:30 · 563 阅读 · 0 评论 -
hbase启动成功却不能web端口访问,也无法使用hbase shell
HTTP ERROR 503 求救访问HBase的WebUI(60010端口)时,一致出现HTTP ERROR 503Problem accessing /master-status.Reason:master not ready原因1:如果hdfs是HA模式且namenode节点都是standby的话,就算启动Hmaster也无法从web端查看监控情况,因为hdfs在standby状...原创 2020-04-23 17:02:17 · 3301 阅读 · 0 评论 -
hdfs-ha启动zkfc后两个namenode都是standby的解决办法
从普通hdfs分布式集群更改配置文件目录后切换成hdfs-ha模式,启动后两个namenode都是standby的解决办法方法:参考:https://www.cnblogs.com/zlslch/p/9190126.html转载 2020-04-23 12:26:37 · 662 阅读 · 0 评论 -
HUE忘记超级用户或普通用户密码时
普通用户处理办法:问题描述:hue用户密码忘记,无法以hue身份登录hue界面解决方法:1.若hue界面已有其他超级用户,可以用已有超级用户登陆,登陆进去之后更改hue用户的密码2.若hue界面没有其他用户,可以先创建一个超级用户user1,然后用这个超级用户user1登陆,登陆进去之后更 改hue用户的密码,命令是:/usr/lib/hue/build/env/bin/hue creat...转载 2020-04-22 18:05:06 · 2104 阅读 · 0 评论 -
HUE编译安装以及各集群进行集成配置
参考:cnblogs.com/alexzhang92/p/10942436.html转载 2020-04-22 15:53:50 · 206 阅读 · 0 评论 -
HBASE批量数据存储后HDFS上无法查看HBASE存储数据的大小
原因:hbase存储数据后并不会实时刷新信息解决办法:1.启动hdfs和zookeeper服务2.启动hbase服务进入hbase shell输入 flush ‘表名’再次进入hdfs的web监控页面,浏览hbase的存放路径,我的是如下路径:/hbase/data/default/weblogs/9e7da64e3e3506a77d7e01b0c27add55/infowe...原创 2020-04-21 18:27:15 · 272 阅读 · 0 评论 -
如何下载Cloudera归档网页上的资源
最近需要安装大数据平台测试环境,于是想用Cloudera的一套组件试试手。因为嫌弃Cloudera Manager安装不过瘾,于是想手动从零开始安装。郁闷的是,到安装zookeeper的时候,在http://archive.cloudera.com/cdh5/cdh/5/页面死活找不到zookeeper的tar.gz或者有相应的资源,如HBASE,但点击后却不是下载链接解决办法:在新建浏览器窗口...原创 2020-04-06 15:49:46 · 2018 阅读 · 3 评论 -
hadoop的namenode和datanode以及日志聚集目录设置
Hadoop中namenode和datanode以及日志聚集目录都是依赖于tmp目录(默认是有权限设置的,需要设置hdfs-site.xml的属性dfs.permissions.enabled的value为false)在Hadoop的官方使用文档的默认hdfs-site.xml配置文件中注:未设置tmp目录位置时,默认生成tmp在Linux的根目录下,可以清除里面的数据...原创 2020-01-07 10:06:47 · 2103 阅读 · 0 评论 -
配置Hadoop集群的log目录
配置log目录首先在Hadoop软件包里面创建 logs目录,用 pwd 命令得到logs的文件路径,复制到配置文件中(自定义logs目录,为了方便在集群启动失败时查看日志,查找原因)涉及到Hadoop 日志存储位置的共有三个地方的配置文件,分别是/etc/Hadoop/conf/hadoop-env.sh/usr/lib/hadoop/libexec/hadoop-config.sh/e...原创 2020-01-06 17:12:54 · 4964 阅读 · 0 评论 -
大数据学习规划
当我说要做大数据工程师时他们都笑我,直到三个月后……2017年10月25日 14:52:16 GitChat技术杂谈 阅读数:70119版权声明:本文为GitChat作者的原创文章,未经 GitChat 允许不得转载。 https://blog.csdn.net/GitChat/article/details/78341484GitChat 作者:Fickr孫啟誠 原文: 三个月大...转载 2018-10-13 09:23:12 · 2453 阅读 · 0 评论 -
本机目前hadoo集群架构以及各组件配置文件详情
namenode和resourcemanager节点分配时候考虑内存,可以适当给namenode内存大一点。注意集群启动顺序配置文件没问题注意重新格式化集群,格式化namenode和格式化hadoop在zookeeper集群中的状态信息...原创 2018-12-06 14:54:12 · 139 阅读 · 0 评论 -
hadoop集群高可用之常见问题分析
namenode-HA问题:两个或以上的namenode节点数启动后都是standby状态解决办法:1、先查看namenode节点的状态(nn1是namenode的节点名称)bin/hdfs haadmin -getServiceState nn1然后使用命令切换状态即可bin/hdfs haadmin -transitionToActive nn1*注:手动装换如果报错,是...原创 2018-12-06 12:28:41 · 1478 阅读 · 0 评论 -
介绍哈hadoop中命令hadoop和hdfs的区别
参考:https://www.cnblogs.com/lzfhope/p/6952869.html转载 2018-12-05 11:48:29 · 3676 阅读 · 0 评论 -
自定义 hadoop MapReduce InputFormat 切分输入文件
参考:https://blog.csdn.net/xiaomin1991222/article/details/50981362转载 2018-11-28 16:42:56 · 215 阅读 · 0 评论 -
Hadoop 里MapReduce里 实现多个job任务 包含(迭代式、依赖式、链式)
一、迭代式,所谓的迭代式,下一个执行的Job任务以上一个Job的输出作为输入,最终得到想要的结果。 这里我只写关键的代码了Job job = new Job(new Configuration()); //设置job输入路径FileInputFormat.setInputPaths(job,inputPath);//设置job输出的路径FileOutputFormat.setOutput...转载 2018-11-26 18:03:29 · 846 阅读 · 0 评论 -
secondary namenode和hadoop-HA的区别
参考:https://blog.csdn.net/jarth/article/details/52839864https://blog.csdn.net/zhanaolu4821/article/details/82149804转载 2018-12-04 11:19:50 · 914 阅读 · 1 评论 -
mapreduce运行原理详解(包含maptask原理)
参考:https://blog.csdn.net/qq_34886352/article/details/82461919转载 2018-11-25 12:18:58 · 177 阅读 · 0 评论 -
mapreduce的运作原理
参考:https://blog.csdn.net/mbshqqb/article/details/70226218转载 2018-11-23 15:05:31 · 99 阅读 · 0 评论 -
win10配置eclipse开发环境及运行hadoop实例及集群运行
参考:https://blog.csdn.net/H_12306/article/details/81629531原创 2018-11-24 14:30:16 · 1111 阅读 · 2 评论 -
hadoop集群运行jar包报错(eclipse导jar)
报错日志:Exception in thread "main" java.lang.UnsupportedClassVersionError: com/hdfs/wordcount/WordcountDriver has been compiled by a more recent version of the Java Runtime (class file version 53.0), th...原创 2018-11-22 12:02:14 · 2636 阅读 · 0 评论 -
hbase对jdk和Hadoop的版本要求
Hbase对Jdk要求,最好就用JDK 1.8HBase对Hadoop版本要求,Hadoop版本升级不要太激进,貌似2.7.1+这个系列对Hbase-1.x,2.x支持比较好;如果hadoop和hbase都想尽可能新的版本,建议Hadoop使用2.8.3+这个系列“S” = supported“X” = not supported“NT” = Not tested...转载 2018-11-10 10:55:24 · 1046 阅读 · 0 评论 -
物理机与远程服务器或者虚拟机实现文件复制(SCP)
1.使用SCP命令实现参考:https://blog.csdn.net/yhblog/article/details/839271412.使用filezilla工具实现文件复制注:使用filezilla传输前需要填写远程服务器ip,用户名,密码(填写用户名最好填写要用的用户名,因为文件传输过去会对应加上权限,如果填写root,文件权限则是root,其他用户无法访问,则有需要给用户授权才能访...原创 2018-11-10 12:02:35 · 3687 阅读 · 0 评论 -
ssh无密登录配置详解(hadoop集群搭建)
ssh无密登录原理注:私钥和公钥是每个用户独有的,而不是机器或者服务器的,比如一台电脑或者服务器或者虚拟机,可以同时存在多个用户,但不同用户需要远程登录其他服务器或者虚拟机时,都必须配置各自的私钥和公钥,而且用户之间的各不相同常用命令ssh ip(远程登录也可以是ssh hostname,条件是本机和远程机器都配置了hosts文件映射,如果没有配置ssh无密登录需要输入密码,对于集群管理和...原创 2018-11-13 15:36:39 · 2638 阅读 · 0 评论 -
HADOOP 单机模式 伪分布式 完全分布式区别
1.单机(非分布式)模式这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统,一般仅用于本地MR程序的调试2.伪分布式运行模式这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode) 请注意分布式运行中的这几个结点的...转载 2018-11-11 11:23:08 · 12437 阅读 · 1 评论 -
Hadoop官网查看手册
1.进入官网:http://hadoop.apache.org/2.找到需要查看的Hadoop版本(或者接近版本,如安装的Hadoop2.7.2,也可以查看2.7.3版本的手册,)3.如需要查看以前版本(找到页面左下角)查找对应版本(或者相近的版本手册)如:...原创 2018-11-11 11:33:24 · 2445 阅读 · 0 评论 -
hadoop 各个版本下载地址
地址:https://archive.apache.org/dist/hadoop/common/转载 2018-11-11 11:38:54 · 1221 阅读 · 0 评论 -
Hadoop fs命令详解
Hadoop框架之HDFS的shell操作参考:https://www.cnblogs.com/cl1234/p/3566923.html转载 2018-11-15 14:42:05 · 7547 阅读 · 0 评论 -
spark与storm的对比
参考:https://www.cnblogs.com/yaohaitao/p/5703288.html转载 2018-11-15 16:36:47 · 1413 阅读 · 0 评论 -
Hadoop集群连接报错(以及tmp目录的设置)
问题:经过查找,解决办法:查看集群是否启动?:集群关闭常出现在学习过程中,因为每天我们需要电脑关机,当我们的物理机关闭后,那么虚拟机里面的集群也会随之关闭,在我们下次使用集群前输入命令就会报错,所以我们需要重新启动namenode和datanode注:第一次格式化namanode后,不要总是每次启动后就格式化namenode。最好直接启动namenode和datanode。...原创 2018-11-12 09:53:59 · 2151 阅读 · 0 评论 -
centos7搭建hadoop集群之rsync和xsync
文章记录于各个服务器(或者虚拟机等)已经配置了ssh免密登录,可执行下面操作,未配置ssh免密登录,可参考:https://blog.csdn.net/yhblog/article/details/84029535此文章是基于centos7minimal版本的,纯净系统,所以还需要安装rsync工具(确保所有节点都必须安装rsync)否则报错:安装成功:启动rsync服务sys...原创 2018-11-14 14:40:02 · 16583 阅读 · 14 评论 -
centos7搭建hadoop集群之xcall脚本
在一些特定场景下,需要所有节点同时执行相同的命令,比如主机hadoop1执行ls命令,其他节点主机也同时执行ls命令,实现这种效果快捷方式一般有两种:1.使用工具,同一发送执行命令,如SecureCRT,同时连接所有节点,在窗口下面可以直接输入需要同时执行的命令。优点:如果命令后面带有路径,如ls /opt/demo,可以直接写成ls demo/(前提是其他节点也有此目录),写成相对路径...原创 2018-11-14 17:21:36 · 2327 阅读 · 0 评论 -
hadoop MapReduce Yarn运行机制
参考:https://www.cnblogs.com/wujing-hubei/p/6009849.html转载 2018-11-14 17:38:57 · 136 阅读 · 0 评论 -
hdfs集群第一个客户端程序
在集群实体机中,我们可以直接通过实体机操作hdfs系统,直接使用hdfs命令将实体机中的文件上传至集群文件系统中,但实际应用中集群会面向客户端操作,不再是传统命令操作,而是通过相应的客户端程序来执行测试之前先注意一下几点:1.集群启动状况,是否正常2.测试环境是否搭好(这里使用的eclipse导入jar方式,也可以使用pom配置,intellij搭建也可以)3.测试的文件在客户端磁...原创 2018-11-16 10:42:17 · 291 阅读 · 0 评论 -
配置hadoop集群常见问题和概念联系
1)防火墙没关闭、或者没有启动yarn2)主机名称配置错误3)ip地址配置错误4)ssh没有配置好5)root用户和atguigu两个用户启动集群不统一6)配置文件修改不细心7)未编译源码8)datanode不被namenode识别问题9)个人学习过程中,如果集群因配置问题崩掉,1.启动集群前先清除以前错误数据目录和日志目录,再格式化namenode(开发过程中不能随便格式化nam...原创 2018-11-15 12:47:17 · 695 阅读 · 0 评论 -
centos7克隆及网络和主机名配置(VMware15搭建Hadoop集群)
1、克隆选中右键,选择红色方框(虚拟机必须关闭状态)2、选中现有快照,但如果没有拍摄快照则无法选中(如果能选中,则可以忽略此步骤)解决办法:一.选中需要克隆的虚拟机右键点击二.更改名称,点击拍摄快照三。如果不需要已经有了的快照,可以删除了重新拍摄快照然后选中需要删除的快照即可3.开始克隆(选择刚拍摄的快照,)下一步(完整克隆)注:虚拟机名称最好不要带中文,防...原创 2018-11-09 12:18:26 · 1954 阅读 · 0 评论