自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 资源 (1)
  • 收藏
  • 关注

原创 python工具--mysql2doris的datax json生成工具

提供DDL生成datax的json

2024-08-16 14:37:14 430

原创 飞书打卡 快捷指令

飞书打卡快捷指令

2024-07-31 14:02:32 713

原创 linux初始化-jdk maven docker一文搞定

一问搞定linux初始化,安装jdk maven docker docker-compose

2023-08-10 17:39:28 277

原创 java程序打包成exe在无java环境执行

java程序打包成exe在无java环境执行

2023-08-06 15:30:44 919

原创 DataEase二开记录--踩坑和详细步骤(四)改admin账号密码

考虑到原来默认admin账号的密码过于简单,需要修改,但是DataEase已经使用了,不能影响原来的数据,因此不能更换镜像。相关文章,有需要的话 可以看看前面几篇DataEase二开记录–踩坑和详细步骤(一)DataEase二开记录–踩坑和详细步骤(二)DataEase二开记录–踩坑和详细步骤(三)增加权限功能。

2023-05-15 14:11:07 2692 2

原创 flinkSQL Table转DataStream

业务中sql可能不完全满足使用,需要转换成DataStream 更灵活一些,所以需要互相转换,发挥各自的优势。

2023-04-24 11:11:12 1068

原创 FlinkSQL kafka完整案例 可直接复制使用

完整案例,可以直接使用。flinksql 消费kafka整体来说是十分简单好用的,使用时门口较低,实时性又高

2023-04-23 17:12:05 2714

原创 DataEase二开记录--踩坑和详细步骤(三)增加权限功能

这篇文章是关于dataease的权限管理的,开源版本是没有权限管理的,任何账号看到的东西都一样,显然,这不能满足正常的使用。

2023-03-24 16:57:32 4553 13

原创 DataEase二开记录--踩坑和详细步骤(二)

最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。

2023-03-14 11:17:13 4643

原创 DataEase二开记录--踩坑和详细步骤(一)

最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。

2023-03-14 10:25:06 9409 4

原创 flink cdc MySQL2Doris 案例分享 解决分库多表同步

使用flink cdc,完成mysql 多库 多表同时同步到doris中

2022-11-18 14:28:53 3158 2

原创 flink doris batch案例

flinkSQL批处理,查询doris 结果还写入doris,使用flink-doris-connector。

2022-11-16 17:24:15 2699

原创 flink on yarn常见问题及解决方法汇总

持续更新flink on yarn在实际使用中的问题和解决方式,与君共勉

2022-10-26 10:01:16 4594 1

原创 使用Kettle多表数据增量导入详细文档

一文搞定多表或单表增量同步到一张表中,详细文档,跟着操作就行

2022-09-28 18:04:52 1165

原创 Python使用pyinstaller打包踩坑合集

pyinstaller打包踩坑汇总

2022-07-13 13:44:22 398

原创 Flink侧输出流及案例

一文了解flink侧输出流的简单应用,以及在实际生产中的使用案例

2022-07-04 16:30:31 686

原创 flink连接redis工具类-简单好用

简单易容的flink redis 工具

2022-05-07 20:13:19 3079 1

原创 flinksql source doris案例

flinksql doris source 一个案例,快速上手

2022-05-07 09:59:10 1450

原创 Flink sink doris案例

flink sink doris 简单案例,一文看懂,立刻上手

2022-05-06 17:09:37 5193

原创 比properties更好用的读配置文件的方式

用properties.load()时总是要求改level为6,很不舒服学习了用别的方式读配置文件案例如下:一、需要的依赖有: <!--log4j日志核心包--> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.16

2022-04-20 15:25:37 611

原创 springboot快速写API,直接传sql作为参数

很久没写过接口了,很多都忘记了,找了找资料都是比较常见的方式,没有直接用sql做参数的。因为业务用数据可能会改,所以写成直接传sql的方式,后期省去了改的活,一劳永逸一、新建工程以上内容也可以手动在pom里添加二、配置用到的pom如下 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-s

2022-03-15 11:02:17 2289

原创 使用stream load向doris写数据的案例

使用stream load向doris写数据的案例代码涉及到的依赖如下 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency> <

2022-03-01 09:54:56 1524

原创 记录ThreadPoolExecutor主线程等待子线程问题

在使用ThreadPoolExecutor启动线程池遇到一个问题:无法让主线程等待子线程完成后再继续执行。网上找了很多方法如:while循环进行轮询Thread类的join方法synchronized锁CountDownLatchFutureBlockingQueueCyclicBarrierLockSupport最后发现都不是适用于ThreadPoolExecutor。研究了很久才解决。案例如下package com.siger;import com.google.commo

2022-02-16 17:27:45 2928 1

原创 阿里巴巴提示:手动创建线程效果更好

原来创建方式ExecutorService executorService = Executors.newFixedThreadPool(threadNum);阿里的插件提示:手动创建线程效果好我看了一下解释:说是容易造成OOM,巧了,我之前就是出现这个问题。于是我使用了阿里推荐的方式穿件线程 ThreadFactory threadFactory = new ThreadFactoryBuilder().setNameFormat("thread-call-runner-%d").build(

2022-02-15 17:49:06 1707

原创 执行shell时出现No such file or directory问题

一、对于在服务器上新上传的start.sh脚本,启动时容易出现,-bash:./start.sh:/bin/sh^M: bad interpreter:No such file or directory一般情况是因为该sh脚本的格式不正确,如果这个脚本在你本地修改过(使用txt、notepad++打开修改),可能在保存的时候会默认把文件的格式保存为: doc格式(windows系统)、mac(苹果系统),那么在上传到系统后,unix系统是不支持doc(mac)格式的,那么就需要把doc(mac)格式的文件

2022-02-10 20:07:12 10401 1

原创 sqoop连接MySQL失败解决案例

在sqoop测试的时候遇到了连接不上的问题

2022-01-17 17:06:03 5393

原创 Flink案例——kafka、MySQL source

Flink案例——kafka、MySQL source一、kafka sourceflink和kafka的连接是十分友好的,毕竟是做流式处理的吧。首先依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</artifactId> <version>1.10.1</version>&

2022-01-14 15:27:24 1819

原创 spark小案例——sparkstreaming消费Kafka

使用sparkstreaming消费Kafka的数据,实现word count依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.12</artifactId> <version>3.0.0</version></dependency><depe

2021-10-12 12:23:29 1432

原创 spark小案例——RDD,sparkSQL

分别使用RDD和SparkSQL两种方式解决相同的数据分析问题;项目数据项目需求使用RDD和SQL两种方式对数据清洗清洗需求如下:统计每个店铺分别有多少商品统计每个店铺的总销售额统计每个店铺销售额最高的前三商品,输出内容包括:店铺名,商品名和销售额其中销售额为0的商品不进行统计计算,例如:如果某个店铺销售为 0则不进行统计 。涉及到的pom依赖 <properties> <scala.version>2.12.10</scala.versio

2021-10-10 14:09:00 1494

原创 spark小案例——RDD,broadcast

RDD小案例object RDD01 { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD01") val sc: SparkContext = new SparkContext(sparkConf) //从集合中创建RDD,spark提供了两个方法,parallelize和makeRD

2021-10-10 10:40:08 876

原创 spark案例——wordcount

local本地模式添加pom依赖<properties> <scala.version>2.12.0</scala.version> </properties><dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</arti

2021-10-09 10:49:59 581

原创 大数据常用工具类——redisUtil

redis工具类一、所需pom依赖 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.7.0</version> </dependency> <dependency> <groupId>org

2021-10-02 15:29:09 841

原创 spark优化

1 Spark参数优化Executor端的内存主要分为三块:第一块就是让Task执行我们自己编写的代码时使用,默认占用总内存的20%;第二块是让task通过shuffle过程拉取上一个stage的task的输出后,进行聚合等操作时使用,默认也是占用总内存的20%;第三块是让RDD持久化时使用,默认占用总内存的60%。1.1 num-executors参数建议:一般每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适,设置太多和太少都不合适,太少的话,无法有效充分利用集

2021-09-20 16:06:24 779

原创 Spark常见问题整理--面试前必看

一、job、stage、Task之间的关系是什么?一个job可以包含多个stage一个stage包含多个task二、job、stage、Task之间的关系是什么?每提交一个任务,就会创建一个job,即调用action算子的时候会创建job【当调用算子之后返回值不是RDD类型的就可以归为Action算子】根据宽依赖和窄依赖划分stage,如果是宽依赖,就新增一个stageTask数量实际上就是分区的数量三、什么是宽依赖、窄依赖?如果一个父RDD分区被多个子RDD的分区使用,就

2021-09-20 16:00:42 1033

原创 Flink的安装部署及WordCount测试

一、本地模式在本地以多线程的方式模拟Flink中的多个角色。(开发环境不用)下载地址:https://flink.apache.org/downloads.html这里下载的是:flink-1.13.0-bin-scala_2.12.tgz上传到常用的位置,然后解压。启动:切换到flink的bin目录下,执行./start-cluster.sh,然后查看进程。二、Standalone 独立集群模式(如果先做了第一步,记得先停止服务,stop-cluster.sh)上传、解压tar包。

2021-09-19 17:45:30 2469

原创 Flink必知必会的重要基本知识

一、Flink基本知识1.1、Flink介绍Apache Flink 是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态计算。Flink 官网:https://flink.apache.org/Flink 的中文官网:https://flink.apache.org/zh/1.2、有界与无界1.2.1、有界数据集有头有尾。处理的数据一定会在某个时间范围内,有可能是一天,也有可能是一分钟,像这样有开始有结束的数据集,叫做有界数据集。对有界数据集的处理叫批处理。1.2.2、无界数据集

2021-09-19 12:15:37 2040

原创 hive储存与压缩

​ Hive支持的储存格式主要有:textfile(行列存储)、sequencefile(行列存储)、ORC(列式存储)、parquet(列式存储)1.1、行式存储和列式存储​ 左图为逻辑表,右边第一个为行式存储,第二个为列式存储**行式存储的特点:**查询满足条件的一整行数据的时候,列存储需要每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻的地方,所以此时行存储查询的速度更快。 select * 效率高 。**列存储的特点:**因为每个字段的数据聚集存储,在查

2021-09-14 17:14:37 1234

原创 druid--JDBC工具类案例

什么是Druid?​ Druid是一个高效的数据查询系统,主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入,进入到Druid后立即可查,同时数据是几乎是不可变。通常是基于时序的事实事件,事实发生后进入Druid,外部系统就可以对该事实进行查询。 目前常用的数据源主要有c3p0、dbcp、proxool、druid。Druid特点:​ 亚秒级查询:druid提供了快速的聚合能力以及亚秒级的OLAP查询能力,多租户的设计,是面向用户分析应用的理想方式实时数据注入:druid支持流数据的

2021-09-13 16:38:38 2252

原创 pip3安装requests库-最全踩坑整理

pip3 install requests的时候,遇到了好多坑,现在总结一下。愿你用不上。一、ssl module in Python is not available这是第一个问题安装opensslyum install opensslyum install openssl-devel重新源码安装./configure --prefix=/usr/local/python3/ --enable-shared --enable-loadable-sqlite-extensions ma

2021-09-05 21:13:59 4921 1

原创 HBase基本知识

定义HBase是一种分布式、可扩展、支持海量数据存数的NoSQL数据库。HBase数据模型HBase的数据模型与关系型数据库类似,数据存储在一张表中,有行有列,但是HBase的底层物理结构是(K-V)。使用HBase的情况当满足以下情况的时候,使用HBase,才能发挥它的作用表单的数据量超千万,且并发挺高数据分析需求较弱,或者不需要那么灵活和实时HBase的优缺点优点列可以动态增加,并且列为空就不存储数据,节省存储空间。Hbase自动切分数据,使得数据存储自动具有水平scalabili

2021-08-31 20:02:52 2072

python工具-mysql2doris的datax json生成工具

python工具-mysql2doris的datax json生成工具

2024-08-16

springboot实现动态调度任务

只需要访问接口就可以更改调度评率,实现动态调度任务,简单易用

2022-12-14

flink-sql-connector-mysql-cdc-2.2.0.jar

flink-sql-connector-mysql-cdc-2.2.0 避免出现 guava 依赖不存在的问题

2022-11-18

mysql2hbase.7z

sqoop已经停止更新,对高版本的hbase已经不支持了,所以借助java来完成数据迁移。 资源包括详细的使用方式说明,以及可以直接拖到linux使用的jar包。

2021-07-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除