- 博客(16)
- 问答 (1)
- 收藏
- 关注
原创 离线数仓项目:自定义UDAF函数
参考官网:GenericUDAFCaseStudy - Apache Hive - Apache Software Foundationhttps://cwiki.apache.org/confluence/display/Hive/GenericUDAFCaseStudypackage comxxx.hive;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDFArgumentE
2022-01-13 09:00:00 260
原创 Hive:MoveTask.Exception
问题:在hdfs上删掉了表的分区目录后,向表中插入不了数据。删掉了NameNode里的表里面的分区目录,表里面的分区目录是元数据,删掉之后就是删掉了元数据此时再向表中导入数据时报错:MoveTask.Exceptionshow partitions dwd_coupon_use ,显示分区存在原因:导入数据时先将表目录里的数据删掉,再将临时目录里已经计算生成的数据移到到表目录里,而此时已经删掉了分区目录,所以是无法移动的;且分区目录是第一次向分区插入数据时创建,而此时分区是存在的
2022-01-12 11:00:00 570
原创 Hive on Spark:解决hive中文乱码
客户端写入中文,服务端存储中文,客户端查询中文,所以客户端对中文进行编码时,不能乱: (1)必须使用可以支持中文编码的字符集:url参数后面添加 useUnicode=true&characterEncoding=UTF-8 (2)服务端收到中文后,必须用中文存,设置表的字符集: #修改字段注释字符集 alter table COLUMNS_V2 modify column COM...
2022-01-10 09:00:00 1190 1
原创 Hive on Spark: 扩充队列
扩充队列 HQL的任务是有优先级的,如何保证有优先级的任务能够有充足的资源保障呢? 扩充一个子队列,只能提交hive任务。 将$HADOOP_HOME/etc/hadoop/capacity-schdualer.xml替换成以下内容: <!-- Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in complian...
2022-01-08 09:00:00 487
原创 Hive on Spark:如何保证hive的任务一定提交到hive的队列
在hive-site.xml中添加: <property> <name>mapreduce.job.queuename</name> <value>hive</value> </property> 重启Hive!
2022-01-07 09:00:00 449
原创 Hive on Spark:如何提高yarn并发运行app的数量?
问题:无法创建spark客户端jdbc连接hive,当两个窗口都执行insert语句时(每个窗口都相当于是一个独立的客户端,各自提交自己的application),会报错:[42000][30041] Error while processing statement: FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spar
2022-01-06 14:55:06 1627
原创 Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory
报错:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactoryCaused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory解决:导入commons-logging的依赖<!--https://mvnrepository.com/artifact/
2022-01-05 18:21:55 548
原创 如何配置maven本地仓库?
1) 配置本地仓库1) Maven的核心程序并不包含具体功能,仅负责宏观调度。具体功能由插件来完成。Maven核心程序会到本地仓库中查找插件。如果本地仓库中没有就会从远程中央仓库下载。此时如果不能上网则无法执行Maven的具体功能。为了解决这个问题,我们可以将Maven的本地仓库指向一个在联网情况下下载好的目录。2) Maven默认的本地仓库:~.m2\repository目录。Tips:~表示当前用户的家目录。3) Maven的核心配置文件位置:解压目录E:\apache-maven.
2021-12-17 20:15:00 824
原创 解决Maven依赖始终下载不下来的问题
问题:Maven依赖始终下载不下来,一直飘红原因:检查Maven配置,因为之前设置过本地仓库的目录了,结果新安装的idea没有配置对应的目录,所以就一直找不到maven的仓库。解决:按照下图配置对应的路径:...
2021-12-16 20:00:00 1020
原创 Using platform encoding (UTF-8 actually)to copy filtered resources, i.e. build is platform dependent
在idea Maven package打包时出现:[WARNING] Using platform encoding (UTF-8 actually) to copy filtered resources, i.e. build is platform dependent!解决:在pom.xml中添加: <properties> <project.build.sourceEncoding>UTF-8</project.buil..
2021-12-15 09:37:11 510
原创 HiveServer2 OOM:GC overhead limit exceeded
hiveserver2运行时报错现象:GC overhead limit exceeded原因:hiveserver2的堆内存太小了解决:修改配置文件$HIVE_HOME/conf/下修改:将配置文件的template后缀去掉:mv hive-env.sh.template hive-env.sh修改:vim hive-env.sh找到export HADOOP_HEAPSIZE=1024,放开注释:如果1024还报GC overhead limit exce
2021-12-14 19:33:26 1896
原创 启动hive时报错: org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark session
h启动hive时报错:Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session a2d32dbe-d48c-486f-be8b-2f5c75ffe182日志监控:java.util.concurrent.ExecutionException: java.util.concurren.
2021-12-12 22:46:49 2659
原创 spark练习:求得用户每次会话的行为轨迹--解决数据倾斜
数据:1001,2020-09-10 10:21:21,home.html1001,2020-09-10 10:28:10,good_list.html1002,2020-09-10 09:40:00,home.html1001,2020-09-10 10:35:05,good_detail.html1002,2020-09-10 09:42:00,favor.html1001,2020-09-10 10:42:55,cart.html1001,2020-09-10 10:43:55,11
2021-12-10 20:00:00 669
原创 spark+hive开窗函数练习:求用户每次会话的行为轨迹
数据:1001 2020-09-10 10:21:21 home.html1001 2020-09-10 10:28:10 good_list.html1001 2020-09-10 10:35:05 good_detail.html1001 2020-09-10 10:42:55 cart.html1001 2020-09-10 11:35:21 home.html1001 2020-09-10 11:36:10 car...
2021-12-09 14:50:50 1548
原创 hive开窗函数的案例-【sql练习】
数据:语文,60数学,70语文,0语文,10语文,20数学,50语文,50数学,40英语,52英语,51英语,59英语,97英语,98英语,100数学,80数学,90英语,61结果要求如下:语文,0,1语文,10,1语文,20,1数学,40,2数学,50,2语文,50,3英语,51,4英语,52,4英语,59,4语文,60,5英语,61,6数学,70,7数学,80,7数学,90,7英语,97,8英语,98,8英语,100,8思
2021-12-08 19:33:41 438
原创 解决namenode一直处于安全模式的问题
问题:hadoop集群的namenode一直处于安全模式。现象:开启hive时报错:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /tmp/hive/xxx/01ce6751-cfbf-4120-9d63-0a2432187af2. Name node is in safe mode.解决:1
2021-12-08 18:20:56 11081 3
空空如也
NotePad++ 写的文件没有保存的文件怎么找回
2022-03-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人