fyl005-CSDN博客

原创 hiveSQL语法及练习题整理(mysql)

hive、hivesql练习、hivesql面试题、sql练习

2023-11-03 10:31:11 748

原创 linux kill -9 杀不掉

1、进入到“/proc/进程号”目录下，执行“cat status”命令可以查询到指定进程的父进程。 3、利用“kill 进程号”重新删除指定进程即可【这一步也可以不用执行】 2、利用“kill -9 父进程的进程号”将父进程删除掉；1.这个进程是僵尸进程 2.此进程是"核心态"进程。

2023-07-18 19:45:39 688

原创 CentOS7中安装MySQL ，mysql-community-server-8.0.32-1.el7.x86_64.rpm: 头V4 RSA/SHA256 Signature, 密钥 ID 3a7

错误：依赖检测失败： libcrypto.so.10(OPENSSL_1.0.2)(64bit) 被 mysql-community-server-8.0.32-1.el7.x86_64 需要 mysql-community-icu-data-files = 8.0.32-1.el7 被 mysql-community-server-8.0.32-1.el7.x86_64 需要。（2）以及添加依赖：yum install libcrypto*

2023-07-18 19:41:10 1784

原创遍历 hive 数据库下的所有表，查找没有数据的表.shell

遍历 hive 数据库下的所有表，查找没有数据的表.shell

2023-06-26 14:07:11 445

原创 mac 虚拟机中安装 centos7 报错 Failed to start LSB: Bring up/down networking. 和 mac 电脑装虚拟机时，为centos 设置静态IP。

偶然看到一条说是 “ 移除网络配置器”，想到之前由于手误，多添加了一个，然后移除掉了，就出现了现在的问题。然后我给 vim /etc/sysconfig/network-scripts/ifcfg-ens33 下配置了 centos 的Mac 地址。这个文件主要设置的是虚拟网卡 vmnet 8 的配置参数，相当于Windows 中的下图 vmnet ipv4 中的设置一样。在该配置文件中主要设置的是虚拟网卡的网关 ip 和网关的子网掩码。真正执行的，上面的会产生一个。

2023-06-15 21:27:25 1212

原创 python 可变和不可变数据类型、深浅拷贝的理解。

对于可变数据类型的赋值（把一个变量赋值给另一个变量，eg: a = [1, 2, 3] b = a），都是属于把a的引用（内存地址）给了另一个变量b,改变a中的值，b中的值也会改变，因为都是指向同一块内存地址，而又因为属于可变数据类型，所以该地址下的值直接改变，不会新开辟一块内存空间去存储。），里面的值是可以变的。对于不可变数据类型，b = a时，a和b的内存地址是一样的，但是要想改变a的值（因为a是不可变数据类型），只能新开辟一块内存空间让a指向新地址，b还是指向了原来的地址。

2023-05-27 17:23:24 161

原创 flinksql 中使用处理时间时，时区差八个小时的问题（在 flink 1.13 以后不会在出现时区问题了）

使用事件时间进行开窗时，需要事件进行触发，比如开一个小时的窗口，在 2:15 分有数据过来，下一条数据在 3:15 分到达，那么窗口将会在 3:15 触发计算，输出 2：00 - 3:00 这个时间段内的统计数据，create_time 也是 3:15。很明显这种情况与实际不同。

2022-11-17 18:51:25 4381 1

原创 Flink SQL中的Map、Array、Row

1、kafka中样例数据。

2022-11-09 20:18:33 2335 1

原创 DBeaver 客户端中时间显示问题

连接 clickhouse 时，查询数据时显示的时间慢了 8 个小时。这个属于 DBeaver 显示问题。2、修改驱动属性中的关于时区的属性。

2022-10-18 19:37:43 2563

原创 mac 更新系统后 idea 意外退出

我的是系统从 13 升级到 15，然后idea 打开就自动闪退了。看了搜到的解决方案，我都尝试了一下。

2022-09-21 16:04:52 2509

原创 flinksql 监控kafka topic 是否发数据过来

当有数据到来时，会有报错信息，从报错信息中可以看到 topic 中的数据格式。

2022-08-29 10:59:16 965 3

原创记一次idea 打包时出现的错误 Discovered module-info.class. Shading will break its strong encapsulation.

需要在 pom 文件中加入这个依赖。注意，版本号要修改，不然会报错，我之前用的是 3.0.1 有报错，不知道其他版本会不会报错，调成这个版本后就不报错了。1、当打一个 module 下的包时，本项目下的其他module也不能有错误。放到maven中的项目下会显示具体报的哪个错，然后去修改就行。2、当出现下面的错误时。......

2022-08-08 23:13:05 1611

原创 ClickHouse 实操

时间日期函数 | ClickHouse Docs toYear、toMonth、toDayOfMonth、toHour、toMinute、toSecond alter | ClickHouse Docs 增加一个列，需要在集群中的每个节点都执行一遍。ALTER TABLE tpl_im_mec_vehicle_base_test_local ADD COLUMN track_id UInt32 AFTER dt alter table dw_0710

2022-06-23 10:34:08 2202

原创 datax shell 脚本补数据

参数设置：说明：支持下面这种格式的 shell 脚本天表中的原有参数：

2022-06-13 23:22:36 556

原创 mysql 的相关操作

1、想要在某个字段后添加一个字段在 tp 后面添加 post_code 字段这个只是在最后面添加（感觉会有个 after ，后面看下）：需要改变字段的顺序：还有一种更简便的方法（直接在某个字段后添加）：alter table + 表名 + add + 要添加的字段字段类型 + after + 要跟随的字段名延伸：在最前面添加字段修改后的字段：...

2022-06-13 23:15:04 104

原创 flink sql 报错：FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

当出现这种错误时，原因一般是启动任务时，所给的资源不够。可以调整 streamx 界面上的并行度、task的内存调大。然后重启任务看下是否能行。

2022-06-13 17:37:38 1345

原创 clickHouse 官网阅读

一、文档阅读ClickHouse 是于2016年开源的列式存储数据库（DBMS）。1、PARTITION BY （分区） : 这个相当于 hive 中的分区字段 dt，按照什么什么分区。作用：分区的目的主要是降低扫描的范围，优化查询速度。不填：只会使用一个分区。数据写入与分区合并：任何一个批次的数据写入都会产生一个临时分区，不会纳入任何一个已有的分区。写入后的某个时刻（大概10-15分钟后），ClickHouse会自动执行合并操作（等不及也可以手动通过

2022-06-13 11:53:52 920

原创 flink 学习笔记

每次先大致写下，后期写的多了在去调格式一、文档学习flink 中时间语义：①、Event Time：是事件创建的时间。例如采集的日志数据中，每一条日志都会记录自己的生成时间。②、Ingestion Time：是数据进入Flink的时间。（ingestion 摄取进入）。③、Processing Time（算子执行时的时间）：是每一个执行基于时间操作的算子的本地系统时间，与机器相关，默认的时间属性就是Processing Time。waterMark 水位线：waterMark 特

2022-05-17 20:24:53 490

原创 flinksql读取kafka数据写入ck，报错：IOException: Attempt to Flush ClickHouse executor failed

详细报错日志如下：java.io.IOException: Attempt to Flush ClickHouse executor failed, exhausted retry times = 3at org.apache.flink.connector.clickhouse.internal.AbstractClickHouseOutputFormat.attemptFlush(AbstractClickHouseOutputFormat.java:99) ~[flink-connector

2022-05-17 10:12:43 928

原创 streamX 平台采用flink sql 读取 kafka 的数据写入 hive

组件：streamX、flink 1.12、hive 2.x一、查询 flink 官网，找寻写hive 的信息。Apache Flink 1.12 Documentation: Hive信息找寻步骤：1、先找到 flink 连接外部信息的目录。 2、因为我们是要采用 flink sql 的方式，所以要看 table&sql。 3、找到 hive。 4、先看概览。在 “概览” 中，有连接 hive 的信息：...

2022-05-13 11:13:23 1763 1

原创大数据日常操作

1、linux查看端口占用情况-- 1、查看端口占用情况netstat -tunlp | grep 8200-- 2、查看被哪个进程所占用jps | grep 进程号[root@sandbox-bigdata-1 elasticsearch]# netstat -tunlp | grep 8200tcp6 0 0 10.39.235.24:8200 :::* LISTEN 99839/java [

2022-04-13 11:20:10 2783

原创 mysql update数据（加入函数）

update rsl_tc_index_volume_route_dset large_vhc_per = round(large_vhc_cnt / flow,3) , small_vhc_per = round(small_vhc_cnt / flow,3)where dt = '2022-03-19' and source = 1;

2022-04-07 19:28:22 673

原创 Datax hive 写 es

1、查看datax官网https://github.com/alibaba/datax/tree/master发现有写es的案例进入 case案例，查看 jsonDataX/elasticsearchwriter.md at master · alibaba/DataX · GitHub{ "job": { "setting": { "speed": { "channel": 1 } }, "co

2022-03-31 15:01:26 3471 3

原创 datax hive 写 es 报错 Caused by: java.lang.IllegalArgumentException: Preemptive authentication set with

1、报错信息原因分析：这个是由于es内部有个验证导致的。2、关闭验证com.alibaba.datax.plugin.writer.elasticsearchwriter包下的ESClient，将.setPreemptiveAuth(new HttpHost(endpoint))注释掉，取消身份验证。...

2022-03-31 14:43:03 2060

原创向 hive 分区表中插入数据

1、创建分区表的外部表（外部表防止数据被误删）CREATE EXTERNAL TABLE IF NOT EXISTS stg_hive_es_test (id BIGINT COMMENT '主键id',road_id STRING COMMENT '路线id',road_name STRING COMMENT '路线name',road_dir_no BIGINT COMMENT '行驶方向 1:北京方向,2:雄安方向',flow double COMMENT '车流量保留2

2022-03-31 10:13:58 12098

原创 flink sql 读取 kafka 数据写入 Hbase中

版本说明：flink 1.12 、Hbase 1.41、查询 flink 1.12 的官网，找寻flink sql 连接 Hbase 的信息。Apache Flink 1.12 Documentation: HBase SQL Connector根据 Hbase 版本需要下载依赖官网中的连接信息-- register the HBase table 'mytable' in Flink SQLCREATE TABLE hTable ( rowkey I...

2022-03-30 10:33:59 2078

原创 fink sql 读取 kafka 的数据写到 kafka

版本： flink 1.12 平台：streamX-- sourceCREATE TABLE `stg_access_its_rt_kafka` ( `message` STRING COMMENT '表数据', `table_name` STRING COMMENT '表名', `record_time` STRING COMMENT '时间yyyy-MM-dd HH:mm:ss', `ts` TIMESTAMP(3) METADATA FR..

2022-03-29 10:09:44 1606

原创 flink sql 使用streamx平台从kafka读取数据写入es

版本说明：flink 1.12 es 3.61、查询 flink官网。发现有 sql 可以直接写入 es的

2022-03-28 20:55:41 2382 1

原创一键导出 hive 中所有的表结构

通过创建 shell 脚本的方式：#! /bin/bashhive -e "use stg_jinxiong; show tables;" > stg_jinxiong_tables.txtsleep 1cat stg_jinxiong_tables.txt | while read eachlinedohive -e "use stg_jinxiong; show create table ${eachline};" >> stg_jinxiong_ta

2022-03-21 18:08:31 4899 2

原创 datax 写数据到mysql ，mysql 字段类型为 datetime时

分析： 1、当 mysql中字段为datetime类型时，datax官网查到 mysqlwriter的类型转换。可以看出 datax json需要设置为 date 类型的。2、然后去看下 hivereader ，看下当 datax json 为 date 类型时，hive中的字段需要设置什么类型。可以看出当 datax 为 date类型时，hive中有两种类型可以选择，若 hive 中为 date ，则字段中只含有日期，没有时间。所以我们现在 timestamp类...

2022-03-17 11:19:15 5028

原创 MapReduce的优化方法：

MapReduce的优化方法：从以下6个方面着手考虑:1、数据输入map端数据输入时主要需要考虑的是小文件（因为hadoop默认的切片原则是按文件进行的）的问题：针对小文件的问题我们有如下两种解决方案：（1）合并小文件：在map读取数据任务开始前，可以人工的对小文件进行一个合并，合并成一个大文件。（2）采用CombineTextInputFormat的方式读取文件。关于该机制的介绍如下：hadoop框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文

2020-08-23 17:44:02 525

原创 hadoop数据压缩的选择和比较

hadoop数据压缩的选择和比较MR支持的压缩编码为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器：压缩性能的比较：压缩算法原始文件大小压缩文件大小压缩速度解压速度 gzip 8.3GB 1.8GB 17.5MB/s 58MB/s bzip2 8.3GB 1.1GB 2.4MB/s 9.5MB/s LZO 8.3GB 2.9GB 49.3MB/s ..

2020-08-23 17:08:04 527

原创样本不平衡问题

样本不平衡是指：不同类别的样本差别比较大，比如说正类和负类的样本比例为50:1。处理样本不平衡的原因：一般而已，如果类别不平衡比例超过4:1，那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前，需要对分类不均衡性问题进行处理。在前面，我们使用准确度这个指标来评价分类质量，可以看出，在类别不均衡时，准确度这个评价指标并不能work。因为分类器将所有的样本...

2019-04-10 09:35:50 2360

zuixue_lei的博客