![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
日常踩坑记
主要还是以日常开发踩坑为主
南潇如梦
编程小白
展开
-
调度数据中断的错误排查
这个指令是对于yarn中mapreduce中慢数据进行查看,是否是任务产生了慢数据。如果有太多的任务,一定要暂停掉其他的hive中的任务。最近一次发现离线数据流居然凌晨调度失败,上午工作的时候被老板提起说数据断了,于是我果不其然发现有工作流的任务节点中间断开,运行失败。运行一个小时未果,于是就让运维去排查。重新跑,依然是卡在凌晨的节点上。原创 2022-11-12 00:27:26 · 701 阅读 · 1 评论 -
ck数据重复问题的解决之clickhouse的删除多分区的代码
但是存在一个问题,如果数据量比较大的话,使用ReplicatedMergeTree的速度是特别慢的,所以我们可以先在ck中插入数据之前,把重复的数据删掉,然后再插数据。这个代码主要是之前同步clickhouse的时候,发现调度同一天的时间账期要是运行了一次以上,clickhouse就会有重复数据。为了让数据不重复,其实我想到一种方式,把ck建表的引擎从megerTree()修改成ReplicatedMergeTree()。以上代码我是放在调度上的shell语句,原创 2022-10-31 23:03:34 · 2828 阅读 · 0 评论 -
hive有关日期工作常用的内容
根据月份获取该月最后一天。– 计算每月最后一天。原创 2022-10-27 00:48:44 · 1353 阅读 · 0 评论 -
ftp登录笔记
以下是ftp日志的登录操作。ftp内部的文件夹路径和实际上在主机上看的文件路径不一致。原创 2022-10-27 00:43:28 · 215 阅读 · 0 评论 -
{“message“:“字段类型转换错误:你目标字段为[INT]类型,实际字段值为[10000800110000007202007181522149].“,“record“:[{“byteSize“:
datax把mysql的int类型导入hive。直接把hive这边的int改string。原创 2022-10-27 00:39:50 · 1147 阅读 · 0 评论 -
ck报错is not presented in input data.: While executing ORCBlockInputFormat: While executing HDFSSource
(我凌晨一点找bug就是因为这个原因,就是删表再建表,查询的明明是之后的表,但是ck就是找不到)3、如图这个字段我感觉不太规范 :7dappointment_movie_dct。1、hive表里面没有数据,这样需要手动建表。2、hive的表和ck的表字段不一致。我已经遇见好多这样的问题了。数字最好不要放在第一个位置。原创 2022-10-15 14:17:56 · 1027 阅读 · 0 评论 -
perCPU arena getcpu() not available. Setting narenas to 128
导入到clickhuse的数据日志perCPU arena getcpu() not available. Setting narenas to 128。原创 2022-10-15 13:06:39 · 420 阅读 · 0 评论 -
DB::Exception: Sorting key contains nullable columns, but `setting allow_nullable_key` is disabled.
注意:ck的排序的主键不要Nullable()原创 2022-10-15 00:21:00 · 1020 阅读 · 0 评论 -
2022-10-09 17:50:17.215 [job-0] ERROR HdfsWriter$Job - 判断文件路径[message:filePath =/data/ods/ods_bms_us
其实就是hdfs路径问题。在企业中经常会搞高可用模式,如果datax的json设置的是nn01为路径,那如果nn02变成主节点,那就会路径失败。nn01和nn02都是高可用主机的别名(我是在生产环境中找的别名)namenode的active和standby模式的切换。从nn01的standby切换为active。从nn02的active切换为standby。在datax导入到hive中,会有这种报错。查看高可用的是否为主节点状态。原创 2022-10-09 21:51:28 · 1185 阅读 · 0 评论 -
有关datax的20221008[0m [32;1m[INFO ] [2022-10-09 19:27:07] Finished format job file: /web/soft/datax/
注意:这个不是报错,如果看见最后是成功那就是成功!原创 2022-10-09 21:42:34 · 315 阅读 · 0 评论 -
FAILED: SemanticException [Error 10036]: Duplicate column name: content_name
就是字段重复了,把重复的字段改成不重复的就可以了。hive建表的时候报错。原创 2022-10-08 21:53:14 · 978 阅读 · 0 评论 -
有关Spark产生Jar冲突的杂谈
一般情况下,我们可以先核对依赖的版本是否和软件一样,比如mysql-jdbc或者hive的元数据版本信息,一定要和服务器中的一样,不能偷懒什么都写最高版本的。主要是不同的软件依赖,会下载对应的子依赖,如果在执行程序过程中需要加载其他的内容。一般是通过加载类名,如果有一样的名称,但是没有加载到程序应该加载的类,就会报错。在做spark开发的时候,经常因为导入不同的maven加载依赖,导致jar冲突。如果使用idea的商业版本进行开发,我们可以直接查看依赖树。为什么会发现jar冲突?如何排查Jar冲突?...原创 2022-08-05 17:36:18 · 614 阅读 · 0 评论 -
记录生产的一次OOM异常
为了让业务验收sql,特意一周时间在搞sql测试,测试环境中的运行一点问题都没有,但是一上生产,之前成功的代码,基本全军覆没。公司的数仓架构是Hive+Doris的形式,就是数仓在Hive上建立,最后的ads层要映射到Doris中,帆软通过读取Doris中的数据去进行可视化展示。在每个sql文件上面添加五个参数,设置hive的内存。...原创 2022-06-29 00:05:41 · 225 阅读 · 0 评论 -
写shell脚本报错总结
1、shell脚本中执行doris指令报错原因:就是linux系统的文件格式是unix,而windows是dos,就是格式不对应。建议:1)下载vscode,下载shell的插件,把结尾的字符改成lf。如果shell是在md文件先在vscode里面核对有没有格式错误,再去linux里面跑。2)直接在linux里面敲shell脚本或者 :set ff=unix2、doris 的加载总是加载不了。就是我这边语句有一个清空表结构,然后再加载数据。但是没加载到。清空表结构的语句单独放一个shell,创建原创 2022-06-24 00:18:21 · 2672 阅读 · 0 评论 -
Kafka:Error while executing topic command : Replication factor: 1 larger than available brokers: 0
目录背景解决背景我每次装kafka如何报了错,都是这个错误Kafka:Error while executing topic command : Replication factor: 1 larger than available brokers: 0当你把kafka装好之后,如果开启zookeeper和kafka都有进程,但是创建kafka主题就失败。那应该就是配置文件配置错了。解决基于这点,一定要去看一下server.properties consumer.原创 2022-04-25 23:02:03 · 3675 阅读 · 0 评论 -
如何kill死掉-- process information unavailable?
背景:虚拟机卡了,于是我的es没运行完。多了一个线程,重启没用。如图-- process information unavailable无法使用kill -9 杀掉那如何清除呢?cd /tmp/hsperfdata_hadoop注意啦:hsperfdata_账户名,可以是hsperfdata_root,也可以是hsperfdata_herry。知道你使用这个文件时候的账号就可以ls /tmp/hsperfdata_hadoop排查uuid也在.原创 2022-04-24 22:37:25 · 1192 阅读 · 0 评论 -
max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
目录背景解决方法结论背景在安装elasticsearch的时候使用一个用户账号安装,输入elasticsearch会报max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]。好像只要是最近的版本都会报这个错误。解决方法sudo vi /etc/security/limits.conf下面这行代码就添加到这个配置文件的末尾就好原创 2022-04-24 22:23:38 · 10419 阅读 · 1 评论 -
修改windows系统的映射文件
目录背景解决反思背景换了一个环境想换一个主机名,却总是无法访问web界面排除了网络问题,剩下就是配置问题,然后考虑到映射解决修改windows上的映射关系进入c盘C:\Windows\System32\drivers\etc把hosts里面内容添加一下映射# Copyright (c) 1993-2009 Microsoft Corp.## This is a sample HOSTS file used by Microsoft TCP/IP原创 2022-04-24 21:12:23 · 796 阅读 · 0 评论 -
message:Hive Schema version 2.1.0 does not match metastore‘s schema version 1.2.0 Metastore
目录1 问题描述2 解决办法: (修改元数据的版本)1 问题描述启动了不同版本的集群,hive的元数据库启动报错MetaException(message:Hive Schema version 2.1.0 does not match metastore's schema version 1.2.0 Metastore is not upgraded or corrupt)at org.apache.hadoop.hive.metastore.ObjectStore.che.原创 2022-04-15 12:20:08 · 245 阅读 · 0 评论 -
Error running ‘spring-boot-helloworld [package]’: No valid Maven installation found.
今天在敲一个springboot的程序,打jar包的时候停止在maven环境中Error running ‘spring-boot-helloworld [package]’: No valid Maven installation found. Either set the home directory in the configuration dialog or set the M2_HOME environment variable on your system然后我就查看了自己idea中的ma原创 2022-03-29 17:20:00 · 908 阅读 · 0 评论 -
HBase的异常:ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing at org.apache.hadoop.hbase.master.HMaster.checkInitialized(HMaster.java:1869) at org.apache.hadoop.hbase.master.MasterRpcServices.getTableDescriptors(MasterRpcServices.java...原创 2022-03-29 12:41:13 · 2587 阅读 · 0 评论 -
Exception in thread “main“ java.lang.IllegalArgumentException
做向量字符串转换向量的时候运行spark程序,一直报以下错误。Exception in thread "main" java.lang.IllegalArgumentException: requirement failed: Column feature_vec must be of type struct<type:tinyint,size:int,indices:array<int>,values:array<double>> but was actual原创 2022-03-28 23:54:43 · 4098 阅读 · 0 评论 -
如何在Idea中查看源码?
找看一些包冲突的bug,看底层源码才是王道。下面就介绍两种常用的方式。方式一: ctrl+h (打开结构图)选择一个类,然后按下ctrl+h,就可以打开源码界面啦方法二:ctrl+鼠标左键(进入源码)...原创 2022-03-28 23:24:57 · 12432 阅读 · 1 评论 -
为什么能在Presto中可以运行的sql却在SparkSQL中报错?
真的对于sql语句,在presto里面查询,Pass....在sparksql中加载,一跑就...Exception in thread "main" org.apache.spark.sql.AnalysisException: Table or view not found: article_embedding; line 23 pos 18 at org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.fa...原创 2022-03-28 22:13:45 · 1292 阅读 · 0 评论 -
有关java.lang.ClassNotFoundException报错的总结
在运行spark程序的时候,总是报这个错误java.lang.ClassNotFoundException,折磨了我一整天。现在我解决了这个bug。我就想总结一下遇到这个情况如何排查它。一、查看自己的运行入口${SPARK_HOME}/bin/spark-submit \ #spark指令--jars /usr/local/hive/auxlib/hudi-spark-bundle_2.11-0.5.2-incubating.jar \ #加载的jar包--conf spark...原创 2022-03-28 22:04:15 · 5780 阅读 · 0 评论 -
Azkaban报错总结
1、azkaban job Preparing解决方法:修改 web-server conf/azkaban.properties 配置。# execute 主机过滤器配置, 去掉 MinimumFreeMemory# MinimumFreeMemory 过滤器会检查 executor 主机空余内存是否会大于 6G,如果不足 6G,则 web-server 不会将任务交由该主机执行azkaban.executorselector.filters=StaticRemainingFlowSize,Cp原创 2022-03-26 15:52:12 · 936 阅读 · 0 评论 -
Hbase报错:/usr/local/hbase/bin/hbase:行445: /usr/local/bin/java: 没有那个文件或目录
如果刚搭建好hbase启动报错/usr/local/hbase/bin/hbase:行445: /usr/local/bin/java: 没有那个文件或目录starting master, logging to /usr/local/hbase/logs/hbase-root-master-qianfeng01.out/usr/local/hbase/bin/hbase:行445: /usr/local/bin/java: 没有那个文件或目录starting regionserver, log原创 2022-03-26 11:53:47 · 6582 阅读 · 0 评论 -
YarnClusterScheduler: Initial job has not accepted any resources;
YarnClusterScheduler: Initial job has not accepted any resources;spark-submit突然报这个错误,好像是spark的内存不够了我的spark-env.sh是这样的JAVA_HOME=/usr/local/jdkSCALA_HOME=/usr/local/scalaHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopYARN_CONF_DIR=/usr/local/hadoop/et原创 2022-03-23 13:58:53 · 1415 阅读 · 0 评论 -
yarn超时异常
22/03/22 20:35:11 ERROR yarn.ApplicationMaster: Uncaught exception:java.util.concurrent.TimeoutException: Futures timed out after [100000 milliseconds]at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:223) at scala.concurrent....原创 2022-03-22 21:07:09 · 1239 阅读 · 0 评论 -
有关Hanlp自然语言语料库调用异常
下面有我报的错误和代码参考。1.路径名:ERROR yarn.ApplicationMaster: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1.0 (TID 4, qianfeng01, exe原创 2022-03-21 21:14:19 · 3854 阅读 · 0 评论 -
yum的卸载
yum list installed可以找到想下载的软件的yum安装包我是想卸载mysqlmysql-community-client.x86_64mysql-community-common.x86_64mysql-community-libs.x86_64mysql-community-release.noarchmysql-community-server.x86_64找到了5个安装包然后yum remove mysql-community-client.x86原创 2022-03-19 01:02:19 · 1650 阅读 · 0 评论 -
上传到服务器中的jar说明
打包jar上传到服务器会生成三个文件(就是如图maven-status下面的)上传到服务器中的jar包一定是最下面那个带有依赖的,才能运行成功。不然会报文件找不到错误如图就是那个文件找不到...原创 2022-03-18 23:00:17 · 246 阅读 · 0 评论 -
hive异常启动失败
Exception in thread "main" java.lang.RuntimeException: java.net.ConnectException: Call From qianfeng01/192.168.10.101 to qianfeng01:9000 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/.原创 2022-03-18 22:54:22 · 2315 阅读 · 0 评论 -
rpm 的卸载
把clickhouse的目录不小心误删了,结果得重新安装clickhouse但是rpm安装和解压不同,要把安装来源卸载掉[root@qianfeng01 etc]# rpm -qa | grep clickhouseclickhouse-server-common-20.3.12.112-1.el7.x86_64clickhouse-common-static-20.3.12.112-1.el7.x86_64clickhouse-server-20.3.12.112-1.el7.x86_6原创 2022-03-18 10:21:20 · 1368 阅读 · 0 评论 -
SparkStreaming与Hudi整合报错
项目场景:在spark编写hudi的时候,运行程序把数据落在hive上,但是hudi无法加载到hive报错:org.apache.thrift.TApplicationException: Required field 'client_protocol' is unset!问题描述@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, .原创 2022-03-17 23:05:31 · 718 阅读 · 0 评论 -
Hadoop的datanode没有启动
千万别多次格式化hadoop,因为datanode的id只有是第一次生成的,不会和namenodeid同步datanode启动失败,直接无法上传文件到hdfs中解决方法:查看hdfs-site.xml文件cd /usr/loca/hadoop/etc/hadoop查看上面两个文件夹可以查看namenode和datanode的集群id比如查看namenode只要查看到current/VERSION就可以查看到都是查看VERSION上图是datanode.原创 2022-03-17 15:18:51 · 2705 阅读 · 2 评论 -
ls: 无法访问/usr/local/spark/lib/spark-assembly-*.jar: 没有那个文件或目录
原因:spark升级到spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。如何解决这问题?cd /usr/local/hive/bin看上图有个hivevi hive\就是敲一个/sparkAssemblyPath定位好,把${SPARK_HOME}/lib/spark-assembly-*.jar替换成${SPARK_HOME}/jars/*.jar.原创 2022-03-17 11:37:14 · 2622 阅读 · 0 评论 -
Exception in thread “main“ org.apache.spark.SparkException: When running with master ‘yarn‘ either
在执行一个spark程序的时候,明明把yarn-site.xml,core-site.xml,hdfs-site.xml都打包进去了,可是还是报错Exception in thread "main" org.apache.spark.SparkException: When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment. at org...原创 2022-03-14 22:47:25 · 3163 阅读 · 0 评论 -
安装Hadoop报错找不到jdk
0.0.0.0: Error: JAVA_HOME is not set and could not be found.starting yarn daemonsstarting resourcemanager, logging to /opt/apps/hadoop-2.8.1/logs/yarn-root-resourcemanager-hadoop.outhadoop: Error: JAVA_HOME is not set and could not be found.启动hdfs却..原创 2022-02-07 22:34:00 · 1571 阅读 · 0 评论 -
有关hive搭建涉及到的bug
启动了hive,再次启动org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083. at org.apache.thrift.transport.TServerSocket.<init>(TServerSocket.java:93) at org.apache.thrift.transport.TServerSo原创 2022-03-09 17:19:02 · 878 阅读 · 0 评论