自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 hiveSQL语法及练习题整理(mysql)

hive、hivesql练习、hivesql面试题、sql练习

2023-11-03 10:31:11 748

原创 linux kill -9 杀不掉

​ 1、进入到“/proc/进程号”目录下,执行“cat status”命令可以查询到指定进程的父进程。​ 3、利用“kill 进程号”重新删除指定进程即可 【这一步也可以不用执行】​ 2、利用“kill -9 父进程的进程号”将父进程删除掉;1.这个进程是 僵尸进程 2.此进程是"核心态"进程。

2023-07-18 19:45:39 688

原创 typora 设置高亮等

typora操作

2023-07-18 19:43:53 153

原创 CentOS7中安装MySQL ,mysql-community-server-8.0.32-1.el7.x86_64.rpm: 头V4 RSA/SHA256 Signature, 密钥 ID 3a7

错误:依赖检测失败: libcrypto.so.10(OPENSSL_1.0.2)(64bit) 被 mysql-community-server-8.0.32-1.el7.x86_64 需要 mysql-community-icu-data-files = 8.0.32-1.el7 被 mysql-community-server-8.0.32-1.el7.x86_64 需要。(2)以及添加依赖:yum install libcrypto*

2023-07-18 19:41:10 1784

原创 遍历 hive 数据库下 的所有表,查找没有数据的表.shell

遍历 hive 数据库下 的所有表,查找没有数据的表.shell

2023-06-26 14:07:11 445

原创 mac 虚拟机中安装 centos7 报错 Failed to start LSB: Bring up/down networking. 和 mac 电脑装虚拟机时,为centos 设置静态IP。

偶然看到一条说是 “ 移除网络配置器”,想到之前 由于手误,多添加了一个,然后移除掉了,就出现了现在的问题。然后我给 vim /etc/sysconfig/network-scripts/ifcfg-ens33 下配置了 centos 的Mac 地址。这个文件主要设置的是 虚拟网卡 vmnet 8 的配置参数,相当于Windows 中的 下图 vmnet ipv4 中的设置一样。在该配置文件中主要设置的是 虚拟网卡的 网关 ip 和 网关的子网掩码。真正执行的,上面的会产生一个。

2023-06-15 21:27:25 1212

原创 python 可变和不可变数据类型、深浅拷贝的理解。

对于可变数据类型的赋值(把一个变量赋值给另一个变量,eg: a = [1, 2, 3] b = a),都是属于把a的引用(内存地址)给了另一个变量b,改变a中的值,b中的值也会改变,因为都是指向同一块内存地址,而又因为属于可变数据类型,所以该地址下的值直接改变,不会新开辟一块内存空间去存储。),里面的值是可以变的。对于不可变数据类型,b = a时,a和b的内存地址是一样的,但是要想改变a的值(因为a是不可变数据类型),只能新开辟一块内存空间让a指向新地址,b还是指向了原来的地址。

2023-05-27 17:23:24 161

原创 flinksql 中使用 处理时间时, 时区差八个小时的问题 (在 flink 1.13 以后不会在出现时区问题了)

使用事件时间进行开窗时,需要事件进行触发,比如开一个小时的窗口,在 2:15 分有数据过来,下一条数据在 3:15 分到达,那么窗口将会在 3:15 触发计算,输出 2:00 - 3:00 这个时间段内的统计数据,create_time 也是 3:15。很明显这种情况与实际不同。

2022-11-17 18:51:25 4381 1

原创 Flink SQL中的Map、Array、Row

1、kafka中样例数据。

2022-11-09 20:18:33 2335 1

原创 DBeaver 客户端中时间显示问题

连接 clickhouse 时,查询数据时显示的时间慢了 8 个小时。这个属于 DBeaver 显示问题。2、修改驱动属性中的关于时区的属性。

2022-10-18 19:37:43 2563

原创 mac 更新系统后 idea 意外退出

我的是系统从 13 升级到 15,然后idea 打开就自动闪退了。看了搜到的解决方案,我都尝试了一下。

2022-09-21 16:04:52 2509

原创 flinksql 监控kafka topic 是否发数据过来

当有数据到来时,会有报错信息,从报错信息中可以看到 topic 中的数据格式。

2022-08-29 10:59:16 965 3

原创 记一次idea 打包时出现的错误 Discovered module-info.class. Shading will break its strong encapsulation.

需要在 pom 文件中加入这个依赖。注意,版本号要修改,不然会报错,我之前用的是 3.0.1 有报错,不知道其他版本会不会报错,调成这个版本后就不报错了。1、当打一个 module 下的包时,本项目下的其他module也不能有错误。放到maven中的项目下会显示具体报的哪个错,然后去修改就行。2、当出现下面的错误时。......

2022-08-08 23:13:05 1611

原创 ClickHouse 实操

时间日期函数 | ClickHouse Docs toYear、toMonth、toDayOfMonth、toHour、toMinute、toSecond alter | ClickHouse Docs 增加一个列,需要在集群中的每个节点都执行一遍。ALTER TABLE tpl_im_mec_vehicle_base_test_local ADD COLUMN track_id UInt32 AFTER dt alter table dw_0710

2022-06-23 10:34:08 2202

原创 datax shell 脚本补数据

参数设置:说明:支持下面这种格式的 shell 脚本天表中的原有参数:

2022-06-13 23:22:36 556

原创 mysql 的相关操作

1、想要在某个字段后添加一个字段 在 tp 后面 添加 post_code 字段 这个只是在最后面添加(感觉会有个 after ,后面看下):    需要改变字段的顺序:还有一种更简便的方法(直接在某个字段后添加):alter table + 表名 + add + 要添加的字段 字段类型 + after + 要跟随的字段名延伸: 在最前面添加字段 修改后的字段:...

2022-06-13 23:15:04 104

原创 flink sql 报错:FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

当出现这种错误时,原因一般是启动任务时,所给的资源不够。 可以调整 streamx 界面上的并行度、task的内存调大。 然后重启任务看下是否能行。

2022-06-13 17:37:38 1345

原创 clickHouse 官网阅读

一、文档阅读ClickHouse 是于2016年开源的列式存储数据库(DBMS)。1、PARTITION BY (分区) : 这个相当于 hive 中的分区字段 dt,按照什么什么分区。 作用 : 分区的目的主要是降低扫描的范围,优化查询速度。 不填:只会使用一个分区。数据写入与分区合并:任何一个批次的数据写入都会产生一个临时分区,不会纳入任何一个已有的分区。写入后的某个时刻(大概10-15分钟后),ClickHouse会自动执行合并操作(等不及也可以手动通过

2022-06-13 11:53:52 920

原创 flink 学习笔记

每次先大致写下,后期写的多了在去调格式一、文档学习flink 中时间语义:①、Event Time:是事件创建的时间。例如采集的日志数据中,每一条日志都会记录自己的生成时间。②、Ingestion Time:是数据进入Flink的时间。(ingestion 摄取进入)。③、Processing Time(算子执行时的时间):是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。waterMark 水位线:waterMark 特

2022-05-17 20:24:53 490

原创 flinksql读取kafka数据写入ck,报错:IOException: Attempt to Flush ClickHouse executor failed

详细报错日志如下:java.io.IOException: Attempt to Flush ClickHouse executor failed, exhausted retry times = 3at org.apache.flink.connector.clickhouse.internal.AbstractClickHouseOutputFormat.attemptFlush(AbstractClickHouseOutputFormat.java:99) ~[flink-connector

2022-05-17 10:12:43 928

原创 streamX 平台 采用flink sql 读取 kafka 的数据写入 hive

组件:streamX、flink 1.12、hive 2.x一、查询 flink 官网,找寻写hive 的信息。Apache Flink 1.12 Documentation: Hive信息找寻步骤:1、先找到 flink 连接外部信息的目录。 2、因为我们是要采用 flink sql 的方式,所以要看 table&sql。 3、找到 hive。 4、先看概览。在 “概览” 中,有连接 hive 的信息:...

2022-05-13 11:13:23 1763 1

原创 大数据 日常操作

1、linux查看端口占用情况-- 1、查看端口占用情况netstat -tunlp | grep 8200-- 2、查看被哪个进程所占用jps | grep 进程号[root@sandbox-bigdata-1 elasticsearch]# netstat -tunlp | grep 8200tcp6 0 0 10.39.235.24:8200 :::* LISTEN 99839/java [

2022-04-13 11:20:10 2783

原创 mysql update数据(加入函数)

update rsl_tc_index_volume_route_dset large_vhc_per = round(large_vhc_cnt / flow,3) , small_vhc_per = round(small_vhc_cnt / flow,3)where dt = '2022-03-19' and source = 1;

2022-04-07 19:28:22 673

原创 Datax hive 写 es

1、查看datax官网https://github.com/alibaba/datax/tree/master发现有 写es的案例进入 case案例,查看 jsonDataX/elasticsearchwriter.md at master · alibaba/DataX · GitHub{ "job": { "setting": { "speed": { "channel": 1 } }, "co

2022-03-31 15:01:26 3471 3

原创 datax hive 写 es 报错 Caused by: java.lang.IllegalArgumentException: Preemptive authentication set with

1、报错信息原因分析:这个是由于es内部有个验证导致的。2、关闭验证com.alibaba.datax.plugin.writer.elasticsearchwriter包下的ESClient,将.setPreemptiveAuth(new HttpHost(endpoint))注释掉,取消身份验证。...

2022-03-31 14:43:03 2060

原创 向 hive 分区表中插入数据

1、创建分区表的外部表(外部表防止数据被误删)CREATE EXTERNAL TABLE IF NOT EXISTS stg_hive_es_test (id BIGINT COMMENT '主键id',road_id STRING COMMENT '路线id',road_name STRING COMMENT '路线name',road_dir_no BIGINT COMMENT '行驶方向 1:北京方向,2:雄安方向',flow double COMMENT '车流量保留2

2022-03-31 10:13:58 12098

原创 flink sql 读取 kafka 数据写入 Hbase中

版本说明:flink 1.12 、Hbase 1.41、查询 flink 1.12 的官网,找寻flink sql 连接 Hbase 的信息。Apache Flink 1.12 Documentation: HBase SQL Connector根据 Hbase 版本需要下载依赖官网中的连接信息-- register the HBase table 'mytable' in Flink SQLCREATE TABLE hTable ( rowkey I...

2022-03-30 10:33:59 2078

原创 fink sql 读取 kafka 的数据写到 kafka

版本: flink 1.12 平台:streamX-- sourceCREATE TABLE `stg_access_its_rt_kafka` ( `message` STRING COMMENT '表数据', `table_name` STRING COMMENT '表名', `record_time` STRING COMMENT '时间yyyy-MM-dd HH:mm:ss', `ts` TIMESTAMP(3) METADATA FR..

2022-03-29 10:09:44 1606

原创 flink sql 使用streamx平台 从kafka读取数据写入es

版本说明:flink 1.12 es 3.61、查询 flink官网。发现有 sql 可以直接写入 es的

2022-03-28 20:55:41 2382 1

原创 一键导出 hive 中所有的表结构

通过创建 shell 脚本的方式:#! /bin/bashhive -e "use stg_jinxiong; show tables;" > stg_jinxiong_tables.txtsleep 1cat stg_jinxiong_tables.txt | while read eachlinedohive -e "use stg_jinxiong; show create table ${eachline};" >> stg_jinxiong_ta

2022-03-21 18:08:31 4899 2

原创 datax 写数据到mysql ,mysql 字段类型为 datetime时

分析: 1、 当 mysql中字段为datetime类型时,datax官网查到 mysqlwriter的类型转换。可以看出 datax json需要设置为 date 类型的。2、然后去 看下 hivereader ,看下当 datax json 为 date 类型时,hive中的字段需要设置什么类型。可以看出 当 datax 为 date类型时,hive中有两种类型可以选择,若 hive 中为 date ,则字段中只含有日期,没有时间。所以我们现在 timestamp类...

2022-03-17 11:19:15 5028

原创 MapReduce的优化方法:

MapReduce的优化方法:从以下6个方面着手考虑:1、数据输入map端数据输入时主要需要考虑的是小文件(因为hadoop默认的切片原则是按文件进行的)的问题:针对小文件的问题我们有如下两种解决方案:(1)合并小文件:在map读取数据任务开始前,可以人工的对小文件进行一个合并,合并成一个大文件。(2)采用CombineTextInputFormat的方式读取文件。关于该机制的介绍如下:hadoop框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文

2020-08-23 17:44:02 525

原创 hadoop数据压缩的选择和比较

hadoop数据压缩的选择和比较MR支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器:压缩性能的比较:压缩算法 原始文件大小 压缩文件大小 压缩速度 解压速度 gzip 8.3GB 1.8GB 17.5MB/s 58MB/s bzip2 8.3GB 1.1GB 2.4MB/s 9.5MB/s LZO 8.3GB 2.9GB 49.3MB/s ..

2020-08-23 17:08:04 527

原创 样本不平衡问题

样本不平衡是指:不同类别的样本差别比较大,比如说正类和负类的样本比例为50:1。处理样本不平衡的原因:一般而已,如果类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性问题进行处理。在前面,我们使用准确度这个指标来评价分类质量,可以看出,在类别不均衡时,准确度这个评价指标并不能work。因为分类器将所有的样本...

2019-04-10 09:35:50 2360

大数据-flink和streamx部署

包含flink安装包、streamx安装包、streamx 部署流程

2023-02-08

java-JDK-19 for mac

java-JDK-19 for mac

2023-02-08

大数据-架构梳理画图-笑脸图 for mac

可用来画架构图

2023-02-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除