南潇如梦-CSDN博客

原创大数据学习路线总结

这是一篇大数据学习路线和相关面试总结，可以符合当下主流组件的使用。

2022-06-03 23:49:36 20503 17

原创调度数据中断的错误排查

这个指令是对于yarn中mapreduce中慢数据进行查看，是否是任务产生了慢数据。如果有太多的任务，一定要暂停掉其他的hive中的任务。最近一次发现离线数据流居然凌晨调度失败，上午工作的时候被老板提起说数据断了，于是我果不其然发现有工作流的任务节点中间断开，运行失败。运行一个小时未果，于是就让运维去排查。重新跑，依然是卡在凌晨的节点上。

2022-11-12 00:27:26 959

原创 ck数据重复问题的解决之clickhouse的删除多分区的代码

但是存在一个问题，如果数据量比较大的话，使用ReplicatedMergeTree的速度是特别慢的，所以我们可以先在ck中插入数据之前，把重复的数据删掉，然后再插数据。这个代码主要是之前同步clickhouse的时候，发现调度同一天的时间账期要是运行了一次以上，clickhouse就会有重复数据。为了让数据不重复，其实我想到一种方式，把ck建表的引擎从megerTree（）修改成ReplicatedMergeTree()。以上代码我是放在调度上的shell语句，

2022-10-31 23:03:34 3308

原创 presto的默认值

presto的默认值函数使用coalesce(column,0)hive的默认值的函数一般使用nvl。

2022-10-31 22:29:26 1191

原创 hive有关日期工作常用的内容

根据月份获取该月最后一天。– 计算每月最后一天。

2022-10-27 00:48:44 1578

原创 ftp登录笔记

以下是ftp日志的登录操作。ftp内部的文件夹路径和实际上在主机上看的文件路径不一致。

2022-10-27 00:43:28 295

原创 {“message“:“字段类型转换错误：你目标字段为[INT]类型，实际字段值为[10000800110000007202007181522149].“,“record“:[{“byteSize“:

datax把mysql的int类型导入hive。直接把hive这边的int改string。

2022-10-27 00:39:50 1302

原创经历两次辞退，和一次主动离职剖析辞退的原因

我喜欢做一个透明人，但是同事总是和我关系好，本来我生活只有工作，和同事只聊工作，一些不顺遂的事情被她了解了，感觉我的缺点一直被放大化。有时候自己的个人事情都能在公司一传百，百传十，领导要是听到你这样那样的缺点，就不太好了。深圳这种大城市加班挺多的，如果运气好，在一个不经常加班的企业，就跟着大部队不加班了。6.1 有gitlab账号，就把公司的代码全部看一遍，知道大概需要开发什么需求。领导的事情不能拖，指不定就是你的暗期考核事情，直接反映你的工作态度。正常就可以，不要过于好，少聊自己的私事。

2022-10-27 00:29:48 594

原创有关职场的碎碎念

如果自己技术真的不太行，怎么办？

2022-10-21 22:30:47 227

原创 ck报错is not presented in input data.: While executing ORCBlockInputFormat: While executing HDFSSource

（我凌晨一点找bug就是因为这个原因，就是删表再建表，查询的明明是之后的表，但是ck就是找不到）3、如图这个字段我感觉不太规范：7dappointment_movie_dct。1、hive表里面没有数据，这样需要手动建表。2、hive的表和ck的表字段不一致。我已经遇见好多这样的问题了。数字最好不要放在第一个位置。

2022-10-15 14:17:56 1191

原创 perCPU arena getcpu() not available. Setting narenas to 128

导入到clickhuse的数据日志perCPU arena getcpu() not available. Setting narenas to 128。

2022-10-15 13:06:39 525

原创数据开发的习惯

大数据开发工作总结

2022-10-15 01:00:37 595

原创 DB::Exception: Sorting key contains nullable columns, but `setting allow_nullable_key` is disabled.

注意：ck的排序的主键不要Nullable（）

2022-10-15 00:21:00 1242

原创 hive分区表同步到Clickhouse代码

【代码】hive分区表同步到Clickhouse代码。

2022-10-13 23:31:36 603

原创 2022-10-09 17:50:17.215 [job-0] ERROR HdfsWriter$Job - 判断文件路径[message:filePath =/data/ods/ods_bms_us

其实就是hdfs路径问题。在企业中经常会搞高可用模式，如果datax的json设置的是nn01为路径，那如果nn02变成主节点，那就会路径失败。nn01和nn02都是高可用主机的别名（我是在生产环境中找的别名）namenode的active和standby模式的切换。从nn01的standby切换为active。从nn02的active切换为standby。在datax导入到hive中，会有这种报错。查看高可用的是否为主节点状态。

2022-10-09 21:51:28 1418

原创有关datax的20221008[0m [32；1m[INFO ] [2022-10-09 19:27:07] Finished format job file: /web/soft/datax/

注意：这个不是报错，如果看见最后是成功那就是成功！

2022-10-09 21:42:34 392

原创 FAILED: SemanticException [Error 10036]: Duplicate column name: content_name

就是字段重复了，把重复的字段改成不重复的就可以了。hive建表的时候报错。

2022-10-08 21:53:14 1260

原创 Presto和Hive的日期处理（工作总结）会持续更新

1、获取当前时间的月份，并且把日期转为20221007模式。

2022-10-07 23:43:46 972

原创 DataX导数据从mysql到hive回顾

注意：一定要先开启meta，再开启hive！太久没碰datax了，没想到真的忘记了。mysql可以确定一下表。

2022-09-27 22:55:11 1302

原创 spark面试常问问题

如果RDD D中的分区数据丢失，是只需要在RDD C的分区上重算?RDD做如下转换流程:RDD A——>RDD B——>RDD C-—>RDD D。spark中的reduceByKey和groupByKey的区别？Spark为什么要持久化，一般什么场景下要进行persist操作?Spark为什么要持久化，一般什么场景下要进行persist操作?Spark中cache与persist的区别与联系?Spark为什么要对数据进行序列化，有什么优缺点?RDD的“弹性”体现在哪?Spark的rdd有几种操作类型?..

2022-08-10 06:36:58 359

原创有关Spark产生Jar冲突的杂谈

一般情况下，我们可以先核对依赖的版本是否和软件一样，比如mysql-jdbc或者hive的元数据版本信息，一定要和服务器中的一样，不能偷懒什么都写最高版本的。主要是不同的软件依赖，会下载对应的子依赖，如果在执行程序过程中需要加载其他的内容。一般是通过加载类名，如果有一样的名称，但是没有加载到程序应该加载的类，就会报错。在做spark开发的时候，经常因为导入不同的maven加载依赖，导致jar冲突。如果使用idea的商业版本进行开发，我们可以直接查看依赖树。为什么会发现jar冲突？如何排查Jar冲突?...

2022-08-05 17:36:18 731

原创 Sparksql读取hive回顾

创建一个工程，添加scala的环境，然后把hive-site.xml添加到resource里面。hive的date是2021-08-08，至于datestime是有小时分钟秒的。mysql的date是 ‘2021-08-08’，就是date就是要带单引号。

2022-08-02 23:53:04 511

原创 sql力扣刷题八

表：表：写一段SQL查询来展示每位用户的唯一标识码（unique ID ）；如果某位员工没有唯一标识码，使用 null 填充即可。你可以以任意顺序返回结果表。查询结果的格式如下例所示。示例 1：题解一1384. 按年度列出销售总额表：表：编写一段 SQL 查询每个产品每年的总销售额，并包含 product_id, product_name 以及 report_year 等信息。销售年份的日期介于 2018 年到 2020 年之间。你返回的结果需要按 product_id 和 r

2022-07-30 19:28:24 767

原创力扣shell刷题

你可以假设一个有效的电话号码必须满足以下两种格式(xxx)xxx-xxxx或xxx-xxx-xxxx。给定一个包含电话号码列表（一行一个电话号码）的文本文件file.txt，写一个单行bash脚本输出所有有效的电话号码。第一步将文件单词进行每行一个输出（使用xargs命令）（此处可以不用，也可以使用awk脚本NF处理）写一个bash脚本以统计一个文本文件words.txt中每个单词出现的频率。给定一个文件file.txt，转置它的内容。你也可以假设每行前后没有多余的空格字符。...

2022-07-30 12:24:34 603

原创 SQL力扣刷题七

Table: Table: 编写SQL查询以查找每种产品的平均售价。应该四舍五入到小数点后两位。查询结果格式如下例所示：题解一题解二题解三1264. 页面推荐朋友关系列表：喜欢列表：写一段 SQL 向user_id = 1 的用户，推荐其朋友们喜欢的页面。不要推荐该用户已经喜欢的页面。你返回的结果中不应当包含重复项。返回结果的格式如下例所示。示例 1:题解一题解二题解三题解四1270. 向公司CEO汇报工作的所有人员工表：用 SQL 查询出所有直接或间接向公司

2022-07-30 00:51:09 699

原创 sql力扣刷题六

即如果任务失败了，就是失败状态的起止日期，如果任务成功了，就是成功状态的起止日期。编写一组SQL来查找每次查询的名称(query_name)、质量(quality)和劣质查询百分比(poor_query_percentage)。结果表应包含帖子的post_id和对应的评论数number_of_comments并且按post_id升序排列。编写一个SQL查询，以查找每个月和每个国家/地区的信息已批准交易的数量及其总金额、退单的数量及其总金额。「首次订单」是顾客最早创建的订单。...

2022-07-29 22:44:01 579

原创 SQL力扣刷题五

编写一个SQL查询，查询每位学生获得的最高成绩和它所对应的科目，若科目成绩并列，取course_id最小的一门。编写SQL查询以查找截至2019-07-27（含）的30天内每个用户的平均会话数，四舍五入到小数点后两位。如果一个业务的某个事件类型的发生次数大于此事件类型在所有业务中的平均发生次数，并且该业务至少有两个这样的事件类型，那么该业务就可被看做是活跃业务。编写一段SQL来查找在被报告为垃圾广告的帖子中，被移除的帖子的每日平均占比，四舍五入到小数点后2位。...

2022-07-29 12:47:32 331

原创力扣sql刷题（四）

玩家的第一天留存率定义为假定安装日期为X的玩家的数量为N，其中在X之后的一天重新登录的玩家数量为M，M/N就是第一天留存率，四舍五入到小数点后两位。写一个SQL查询语句，报告在每一个项目中经验最丰富的雇员是谁。写一个SQL查询语句，报告在每一个项目中经验最丰富的雇员是谁。编写一个SQL查询，报告所有安装日期、当天安装游戏的玩家数量和玩家的第一天留存率。编写一个SQL查询，查询总销售额最高的销售者，如果有并列的，就都展示出来。查询结果格式如下所示。...

2022-07-28 23:18:20 549

原创力扣sql刷题系列（三）

写一个查询语句实现对大洲（continent）列的透视表操作，使得每个学生按照姓名的字母顺序依次排列在对应的大洲下面。写一条SQL查询语句获取Sales表中所有产品对应的产品名称product_name以及该产品的所有售卖年份year和价格price。编写一个SQL查询，选出每个销售产品第一年销售的产品id、年份、数量和价格。测试用例的生成使得来自美国的学生人数不少于亚洲或欧洲的学生人数。表中所有产品的客户的id。查询结果中的顺序无特定要求。...

2022-07-19 00:33:32 685

原创 StarRocks理论介绍

Doris一样原理的StarRocks

2022-07-18 00:16:25 1945

原创有关面试的复盘（一）

第二波面试经验。

2022-07-17 12:39:54 1114

原创力扣sql刷题系列

PID字段是投保人的投保编号，TIV_2015是该投保人在2015年的总投保金额，TIV_2016是该投保人在2016年的投保金额，LAT是投保人所在城市的维度，LON是投保人所在城市的经度。筛选不同的地点，就是按照lat和lon进行分组，这里查询的字段是使用concat()连接lat,lon后的值，并且使用count()计算，筛选出等于1的数据，因为等于1代表地点唯一。请写一个sql查询语句，对每一个关注者，查询关注他的关注者的数目。...

2022-07-17 11:14:12 863

原创 canal实操（一）之安装+mysql初始化+修改binlog日志

2、修改binlog日志查看一下日志(主要是看mysql-bin.00000X mysql-bin.index)我们可以再通过在mysql中插入一条数据，去查看binlog日志

2022-07-13 20:21:57 939

原创老年人力扣SQL刷题(开通会员篇)之中位数

请编写一个 SQL 查询，描述每一个玩家首次登陆的设备名称查询结果格式在以下示例中：题解一：子查询排序+关联题解二题解三534. 游戏玩法分析 IIITable: 编写一个 SQL 查询，同时报告每组玩家和日期，以及玩家到目前为止玩了多少游戏。也就是说，在此日期之前玩家所玩的游戏总数。详细情况请查看示例。查询结果格式如下所示：题解一：题解二550. 游戏玩法分析 IVTable: 编写一个 SQL 查询，报告在首次登录的第二天再次登录的玩家的比率，四舍五入到小数点后两位。换句话说，

2022-07-13 20:18:33 894

原创数据采集工具之maxwell

网站https://maxwells-daemon.io/changelog/选择v1.29.2（v130.0以后的全是jdk11 ，就不是jdk8了）选择maxwell-1.29.2.tar.gz点一下就下载了安装就是把安装包扔到虚拟机的指定位置我没配置环境变量，其实也可去配置环境变量1)修改mysql的配置binlog-do-db就是监听的数据库查看真实的binlog2)初始化元数据库3、Maxwell的启动方式3.1第一种启动方式启动一下maxwell，但是maxwell和mysq

2022-07-10 11:06:42 1827 1

原创 maxwell理论知识

mysql的二进制日志记录mysql的和以及发生的时间戳（查询是没有被记录的），MySQL 的二进制日志是事务安全型的。一般来说开启二进制日志大概会有 1%的性能损耗。二进制有两个最重要的使用场景:其一：MySQL Replication 在 Master 端开启 binlog，Master 把它的二进制日志传递给 slaves 来达到 master-slave 数据一致的目的。其二：自然就是数据恢复了，通过使用 mysqlbinlog 工具来使恢复数据。二进制日志包括两类文件：二进制日志索引文件（文件名后

2022-07-10 11:04:46 1819

空空如也

空空如也