调度数据中断的错误排查 这个指令是对于yarn中mapreduce中慢数据进行查看,是否是任务产生了慢数据。如果有太多的任务,一定要暂停掉其他的hive中的任务。最近一次发现离线数据流居然凌晨调度失败,上午工作的时候被老板提起说数据断了,于是我果不其然发现有工作流的任务节点中间断开,运行失败。运行一个小时未果,于是就让运维去排查。重新跑,依然是卡在凌晨的节点上。
ck数据重复问题的解决之clickhouse的删除多分区的代码 但是存在一个问题,如果数据量比较大的话,使用ReplicatedMergeTree的速度是特别慢的,所以我们可以先在ck中插入数据之前,把重复的数据删掉,然后再插数据。这个代码主要是之前同步clickhouse的时候,发现调度同一天的时间账期要是运行了一次以上,clickhouse就会有重复数据。为了让数据不重复,其实我想到一种方式,把ck建表的引擎从megerTree()修改成ReplicatedMergeTree()。以上代码我是放在调度上的shell语句,
{“message“:“字段类型转换错误:你目标字段为[INT]类型,实际字段值为[10000800110000007202007181522149].“,“record“:[{“byteSize“: datax把mysql的int类型导入hive。直接把hive这边的int改string。
经历两次辞退,和一次主动离职剖析辞退的原因 我喜欢做一个透明人,但是同事总是和我关系好,本来我生活只有工作,和同事只聊工作,一些不顺遂的事情被她了解了,感觉我的缺点一直被放大化。有时候自己的个人事情都能在公司一传百,百传十,领导要是听到你这样那样的缺点,就不太好了。深圳这种大城市加班挺多的,如果运气好,在一个不经常加班的企业,就跟着大部队不加班了。6.1 有gitlab账号,就把公司的代码全部看一遍,知道大概需要开发什么需求。领导的事情不能拖,指不定就是你的暗期考核事情,直接反映你的工作态度。正常就可以,不要过于好,少聊自己的私事。
ck报错is not presented in input data.: While executing ORCBlockInputFormat: While executing HDFSSource (我凌晨一点找bug就是因为这个原因,就是删表再建表,查询的明明是之后的表,但是ck就是找不到)3、如图这个字段我感觉不太规范 :7dappointment_movie_dct。1、hive表里面没有数据,这样需要手动建表。2、hive的表和ck的表字段不一致。我已经遇见好多这样的问题了。数字最好不要放在第一个位置。
perCPU arena getcpu() not available. Setting narenas to 128 导入到clickhuse的数据日志perCPU arena getcpu() not available. Setting narenas to 128。
DB::Exception: Sorting key contains nullable columns, but `setting allow_nullable_key` is disabled. 注意:ck的排序的主键不要Nullable()
2022-10-09 17:50:17.215 [job-0] ERROR HdfsWriter$Job - 判断文件路径[message:filePath =/data/ods/ods_bms_us 其实就是hdfs路径问题。在企业中经常会搞高可用模式,如果datax的json设置的是nn01为路径,那如果nn02变成主节点,那就会路径失败。nn01和nn02都是高可用主机的别名(我是在生产环境中找的别名)namenode的active和standby模式的切换。从nn01的standby切换为active。从nn02的active切换为standby。在datax导入到hive中,会有这种报错。查看高可用的是否为主节点状态。
有关datax的20221008[0m [32;1m[INFO ] [2022-10-09 19:27:07] Finished format job file: /web/soft/datax/ 注意:这个不是报错,如果看见最后是成功那就是成功!
FAILED: SemanticException [Error 10036]: Duplicate column name: content_name 就是字段重复了,把重复的字段改成不重复的就可以了。hive建表的时候报错。
spark面试常问问题 如果RDD D中的分区数据丢失,是只需要在RDD C的分区上重算?RDD做如下转换流程:RDD A——>RDD B——>RDD C-—>RDD D。spark中的reduceByKey和groupByKey的区别?Spark为什么要持久化,一般什么场景下要进行persist操作?Spark为什么要持久化,一般什么场景下要进行persist操作?Spark中cache与persist的区别与联系?Spark为什么要对数据进行序列化,有什么优缺点?RDD的“弹性”体现在哪?Spark的rdd有几种操作类型?..
有关Spark产生Jar冲突的杂谈 一般情况下,我们可以先核对依赖的版本是否和软件一样,比如mysql-jdbc或者hive的元数据版本信息,一定要和服务器中的一样,不能偷懒什么都写最高版本的。主要是不同的软件依赖,会下载对应的子依赖,如果在执行程序过程中需要加载其他的内容。一般是通过加载类名,如果有一样的名称,但是没有加载到程序应该加载的类,就会报错。在做spark开发的时候,经常因为导入不同的maven加载依赖,导致jar冲突。如果使用idea的商业版本进行开发,我们可以直接查看依赖树。为什么会发现jar冲突?如何排查Jar冲突?...