hadoop
文章平均质量分 57
普通网友
这个作者很懒,什么都没留下…
展开
-
其他用户登录hive问题
其他用户登录hive cli 报以上错误解决方法:在hive-site.xml找到以下参数并调整权限hive.exec.local.scratchdir --本地目录 chmod 666 该目录即可hive.exec.scratchdir ----对应hdfs目录 hadoop fs -chmod 666 该目录即可原创 2017-07-21 18:58:42 · 1483 阅读 · 0 评论 -
QJM实现机制
转自:http://www.cnblogs.com/charlist/p/7122237.html前言1.1背景 自从hadoop2版本开始,社区引入了NameNode高可用方案。NameNode主从节点间需要同步操作日志来达到主从节点元数据一致。最初业界均通过NFS来实现日志同步,大家之所以选择NFS,一方面因为可以很方便地实现数据共享,另外一方面因为NFS已经转载 2017-09-18 16:20:48 · 2304 阅读 · 0 评论 -
hadoop卸载及扩容
------------------------------------------------------------------------------卸载---------------------------------------------------------------------------------------------------------待卸载节点bis-原创 2017-09-18 18:01:03 · 6568 阅读 · 0 评论 -
yarn下mapreduce内存参数理解
转自:http://blog.csdn.net/dxl342/article/details/53079155Container是什么?Container就是一个yarn的java进程,在Mapreduce中的AM,MapTask,ReduceTask都作为Container在Yarn的框架上执行,你可以在RM的网页上看到Container的状态基础Yarn的R转载 2017-09-11 10:49:47 · 277 阅读 · 0 评论 -
hadoop lzo配置
一、准备工作(only一个节点即可,not all)1、maven准备2、安装lzowget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz tar -zxvf lzo-2.06.tar.gz -C ../cd lzo-2.06mkdir -p /usr/local/lzo206./con原创 2017-10-10 10:27:49 · 523 阅读 · 0 评论 -
hadoop集群优化
hadoop集群优化:一、配置参数优化1、小文件优化:调整split\reduce等参数split参数需根据应用自定义调整,不能统一配置。--hive-site.xml(调整reduce输出参数) hive.merge.mapredfiles true hive.merge.smallfiles.avgsize 100000000原创 2017-10-20 21:15:04 · 920 阅读 · 0 评论 -
namenode异常退出分析及解决办法
-----journalnode异常日志2017-09-04 02:39:21,667 INFO org.apache.hadoop.hdfs.server.namenode.FileJournalManager: Finalizing edits file /data/hadoop/journalnode/nn/XXXXXXX/current/edits_inprogress_0000000原创 2017-09-04 13:37:26 · 12117 阅读 · 3 评论 -
SecondaryNameNode异常排查
二级namenode提示错误:2017-11-20 09:44:58,877 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Exception in doCheckpointjava.io.IOException: Inconsistent checkpoint fields.LV = -47 names原创 2017-11-20 10:31:05 · 1765 阅读 · 0 评论 -
hadoop2.2.0升级到2.7.2
1、非高可用集群安装及配置 配置了1个master 2个slave,启动正常,并添加相关数据2、升级为手动高可用集群(与正式环境一致) 2.1、配置手动故障转移hdfs HA (此处不需要zk,自动切换才依赖zk) ---backup cp -r /home/test/hadoop-2.2.0/etc/hadoop原创 2017-11-20 14:10:41 · 734 阅读 · 0 评论 -
hadoop2.2.0升级成hdfs ha后查询报java.net.UnknownHostException
hadoop2.2.0升级成hdfs ha后查询报错: hadoop fs -ls /17/11/16 16:17:52 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable-l原创 2017-11-16 16:44:55 · 2655 阅读 · 0 评论 -
hive/impala存储格式选型
转载自http://blog.csdn.net/mtj66/article/details/539689911、TEXTFILE 默认格式,建表时不指定默认为这个格式,存储方式:行存储 导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 磁盘开销大 数据解析开销大,压缩的text文件 hive无法进行合并和拆分转载 2018-03-14 14:24:24 · 3451 阅读 · 0 评论 -
hadoop启用防火墙的体验
整体策略:集群内部开放所有端口,集群外部单独开放。service iptables start---启用INPUT/FORWARD链的防火墙检验iptables -P INPUT DROPiptables -P FORWARD DROPiptables -P OUTPUT ACCEPT---允许集群局域网内机器IP(192.168.130.1-192.168.130.254原创 2017-08-31 17:26:27 · 3405 阅读 · 0 评论 -
CM定期报"查询 Service Monitor 时发生内部错误"解决办法
本机通过CM搭建CDH成功后,web界面经常报"查询 Service Monitor 时发生内部错误"无法正常显示包括cloudera-scm-server和cloudera-scm-server后台日志也经常报连接拒绝出现此问题,应该是Cloudera Management Service的内存不足所致,Service Monitor 和 Host Monitor服务JVM内存配原创 2017-08-31 15:08:38 · 5519 阅读 · 0 评论 -
hadoop 日志参数
1、mapreduce运行日志参数(默认设置,存取在hdfs上,重启后将丢失,可通过mapred-site.xml修改路径设置):分为历史日志参数和运行日志参数 mapreduce.jobhistory.done-dir ${yarn.app.mapreduce.am.staging-dir}/history/done mapreduce.j原创 2017-07-26 10:08:11 · 260 阅读 · 0 评论 -
CM自定义参数更新及配置
当配置参数在CM中找不到时,cloudera manager提供了高级配置入口,通过这个入口可配置及更新参数值。配置文件有XML、properties、text file等格式。当配置参数增加到xml文件中时,需遵守xml文件格式。当配置参数增加到CFG文件中时,遵守CFG的文件格式,其他同样。如通过CM调整namenode写入journalnode的超时时间: dfs.qjou原创 2017-09-04 13:41:29 · 1282 阅读 · 0 评论 -
hadoop namenode深度剖析
1、NAMENODE内部结构(fsimage+edits+blockmap) fsimage:保存了最新的元数据检查点; edits:保存了HDFS中自最新的元数据检查点后的命名空间变化记录; BlockMap: 在fsimage中,并没有记录每一个block对应到哪几个datanodes的对应表信息,而只是存储了所有的关于namespace的相关信息。而真正每转载 2017-09-04 17:15:42 · 1008 阅读 · 0 评论 -
hdfs提示Target Replicas is 3 but found 2 replica(s) 问题解决
修改文件副本数为2(dfs.replication to 2 ) 后,仍提示一下问题:Under-Replicated Blocks: Target Replicas is 3 but found 2 replica(s).原因:设置dfs.replication并不会在已有应用中生效,该属性只对新建文件时副本属未指定时取作用,如果想改变副本采用,以下语句hadoop fs -se原创 2017-09-05 10:00:53 · 5133 阅读 · 0 评论 -
Capacity Scheduler配置说明
转自:http://www.linuxidc.com/Linux/2013-09/90124.htmmapred.capacity-scheduler.queue..capacity:设置调度器中各个queue的容量,这里指的是占用的集群的slots的百分比,需要注意的是,所有queue的该配置项加起来必须小于等于100,否则会导致JobTracker启动失败。mapred.capac转载 2017-09-13 18:01:01 · 699 阅读 · 0 评论 -
mr日志输出
摘自:http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-jobhistory-log/Hadoop 2.0提供了跟1.0类似的作业日志收集组件,从一定程度上可认为直接重用了1.0的代码模块,考虑到YARN已经变为通用资源管理平台,因此,提供一个通用的日志收集模块势在必行,由于目前通用日志收集模块正在开发中(可参考“YARN-32转载 2017-09-06 13:55:28 · 2242 阅读 · 0 评论 -
namenode异常退出分析
namenode异常退出日志:2017-09-14 02:38:07,147 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Stopping services started for active state2017-09-14 02:38:07,150 INFO org.apache.hadoop.hdfs.server原创 2017-09-14 15:47:09 · 2720 阅读 · 0 评论 -
hadoop异常问题解决
Q1、NameNode报: java.lang.OutOfMemoryError: GC overhead limit exceeded原因:经查看hadoop 堆内存只有4G,而文件+块数有2千万个,每个占用150B,需要3G左右内存,另外namenode还需要负责与DATANODE通信等等,故导致OOM解决办法:调整conf/hadoop-env.sh中的堆内存大小:exp原创 2017-08-23 11:43:12 · 3522 阅读 · 0 评论 -
CDH版本离线安装的几个步骤
使用hadoop账号通过CM方式安装CDH三台机器192.168.130.140 centos-master192.168.130.141 centos-slave1192.168.130.142 centos-slave21、设置root权限: 参考 给组赋root权限 2、下载CM\CDH安装包、准备jdk1.7 、mysql、http服务等环境原创 2017-08-22 09:58:04 · 2063 阅读 · 0 评论 -
CM启动sentry服务提示错误的解决办法
CM启动sentry服务提示以下错误:Command failed to run because this role has invalid configuration. Review and correct its configuration. First error: Role is missing Kerberos keytab.分析:该问题是因为没有在kdc中创建sentry/原创 2017-09-07 14:09:39 · 3101 阅读 · 0 评论 -
yarn 日志查看报错处理:Error getting logs at hostname:8041
解决办法:hdfs dfs -chmod 1777 /tmp/tmp/logshdfs dfs -chown mapred:hadoop /tmp/tmp/logshdfs dfs -chgrp -R hadoop /tmp/tmp/logs然后重启 jobhistory server原创 2018-05-30 00:17:36 · 2758 阅读 · 0 评论