hadoop学习
wuzhilon88
这个作者很懒,什么都没留下…
展开
-
mapreduce 控制map和reduce 运行数量
<property> <name>mapreduce.job.running.map.limit</name> <value>500</value> </property> <property> <name>mapreduce.job.running.reduce.limit</name> <value>...原创 2021-09-29 17:51:17 · 363 阅读 · 0 评论 -
设置hive 任务最大 map reduce 并行度
setmapreduce.job.running.map.limit=2000;setmapreduce.job.running.reduce.limit=500;原创 2021-04-26 12:19:32 · 1294 阅读 · 0 评论 -
Mapreduce 任务获取配置信息和counters 信息
获取用户MR 任务配置信息apihttp://xxxx:8080/proxy/application_1605539278152_9672465/ws/v1/mapreduce/jobs/job_1605539278152_9672465/conf通过api 获取MRcountershttp://xxx:8080/proxy/application_1605539278152_9624852/ws/v1/mapreduce/jobs/job_1605539278152_9624852/cou..原创 2021-03-31 20:45:19 · 449 阅读 · 0 评论 -
解决hiveserver2 执行SQL 出现: User: infosec is not allowed to impersonate infosec
Exception:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException):User:infosecisnotallowedtoimpersonateinfosec解决方法:1.删除hadoop-env.sh中HADOOP_USER_NAME的设置2.创建用户infosec,sudosuinfosec之后再...原创 2020-09-01 15:12:10 · 569 阅读 · 0 评论 -
linux 替换特殊符号 \\ 处理方式
-i参数:在原始文件上修改sed全文替换的标准用法:sed 's/oldString/newString/g' filename但是有特殊字符时则失效,需要将‘/’替换成‘#’:sed 's#oldString#newString#g' filename如:sed 's#_#\\_#g' ceshi.tex连续替换多个特殊字符:‘_’, '^'sed -i 's#_#\\_#g ...原创 2020-04-08 18:49:36 · 3140 阅读 · 1 评论 -
Hive textfile数据表更改输入输出文件格式
altertabletmp_etltest.xxx SETFILEFORMATINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.mapred.TextOutputFormat'SERDE'org.apache.hadoop.hive.serde2.lazy.Laz...原创 2019-11-11 16:53:06 · 1281 阅读 · 0 评论 -
spark ListenerBus 监听器
Spark 源码中对livelistenerBus进行了这样的注释:即所有spark消息SparkListenerEvents 被异步的发送给已经注册过的SparkListeners. 在SparkContext中, 首先会创建LiveListenerBus实例,这个类主要功能如下:保存有消息队列,负责消息的缓存保存有注册过的listener,负责消息的分发li原创 2017-03-17 16:59:27 · 6371 阅读 · 0 评论 -
Spark Shuffle FetchFailedException解决方案
在大规模数据处理中,这是个比较常见的错误。报错提示SparkSQL shuffle操作带来的报错org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 org.apache.spark.shuffle.FetchFailed原创 2017-03-17 16:45:12 · 6182 阅读 · 0 评论 -
spark sql 表分区出现损坏
表分区出现损坏 1) Create a table"test". "create table test (n string) partitioned by (pstring)"2) Load some data into partition(p='1')3)Remove the path related to partition(p='1') of table test manua原创 2017-03-17 16:44:08 · 1951 阅读 · 0 评论 -
hadoop namnode 挂掉以及解决的过程记录如下
现将namnode 挂掉以及解决的过程记录如下:1、时间(2016-03-08-22:20) 发现namnode2状态为DOWN的告警2、采取措施 重启namenode2。集群正常3、分析原因 们的hadoop集群采用的是默认的hadoop-heapsize大小,1000m,内存过小导致namenode2出现内存溢出原创 2017-03-17 16:39:27 · 4064 阅读 · 0 评论 -
hivemeta、sparkSubmit进程参数优化
1、对hive参数优化 优化 hivemeta进程和sparksubmit进程修改hive-env.sh添加 vi hive/conf/hive-env.shexport HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -Xmx4096m -Xms1024m -XX:MaxHeapFreeRatio=40 -XX:原创 2016-03-14 20:05:46 · 1254 阅读 · 0 评论 -
hadoop namenode进程参数调整
修改hadoop-env.sh添加 vi $HADOOP_HOME/conf/hadoop-env.shexport HADOOP_NAMENODE_OPTS="-Xmx16384m -Xms4096m -Xmn2048m -verbose:gc -Xloggc:/usr/local/fqlhadoop/logs/hdfs/namenode.gc.log -XX:E原创 2016-03-14 20:02:15 · 4616 阅读 · 0 评论 -
spark sql 1.6.0 自定义永久函数
spark sql 1.5.0 也支持Spark(Hive) SQL中UDF的使用相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具,当这些内置的UDF不能满足于我们的需要时原创 2016-03-14 19:58:34 · 4807 阅读 · 0 评论 -
ERROR YarnScheduler: Lost executor
执行脚本出现:15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 8 on myhost1.com: remote Rpc client disassociated15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 6 on myhost2.com:原创 2016-03-09 15:24:13 · 13531 阅读 · 2 评论 -
编译spark1.6.0出现 Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.4.0:exec (sparkr-pkg)
spark 1.6 编译1、下载spark1.6源码2、安装maven3、解压spark1.6 执行export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"cd spark1.6.0./make-distribution.sh --name hadoop2.6 --tgz -Pspar原创 2016-02-02 18:34:43 · 6821 阅读 · 1 评论 -
hadoop 根据SecondaryNameNode恢复Namenode
1.配置secondarynamenode 修改conf/core-site.xml增加 fs.checkpoint.period 3600 The number of seconds between two periodic checkpoints. fs.checkpoint.size 67108864 The size of the current edit l原创 2015-10-30 09:57:09 · 2003 阅读 · 0 评论 -
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask
hive> select count(1) from customer;Query ID = hive_20151113120000_368645da-6763-4ca3-a774-8961d490c0b0Total jobs = 1Launching Job 1 out of 1Status: Running (Executing on YARN cluster with A原创 2015-11-13 12:15:30 · 17095 阅读 · 0 评论 -
在Linux下给mysql创建用户并分配权限及问题解决方案
1.新建用户 //登录MYSQL @>mysql -u root -p @>密码 //创建用户 mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’)); //刷新系统权限表 mysql>flush privileges;原创 2014-10-22 15:12:07 · 23679 阅读 · 0 评论 -
Hadoop分析日志实例的详细步骤及出现的问题分析和解决
1). 日志格式分析首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示:2014-01-07 00:31:25,393 INFO org.apache.hadoop.mapred.JobTracker: SHUTDOWN_MSG: /****************************************原创 2014-01-08 15:03:19 · 8633 阅读 · 0 评论