- 博客(62)
- 资源 (1)
- 收藏
- 关注
原创 linux初始化-jdk maven docker一文搞定
一问搞定linux初始化,安装jdk maven docker docker-compose
2023-08-10 17:39:28 278
原创 DataEase二开记录--踩坑和详细步骤(四)改admin账号密码
考虑到原来默认admin账号的密码过于简单,需要修改,但是DataEase已经使用了,不能影响原来的数据,因此不能更换镜像。相关文章,有需要的话 可以看看前面几篇DataEase二开记录–踩坑和详细步骤(一)DataEase二开记录–踩坑和详细步骤(二)DataEase二开记录–踩坑和详细步骤(三)增加权限功能。
2023-05-15 14:11:07 2701 2
原创 flinkSQL Table转DataStream
业务中sql可能不完全满足使用,需要转换成DataStream 更灵活一些,所以需要互相转换,发挥各自的优势。
2023-04-24 11:11:12 1069
原创 FlinkSQL kafka完整案例 可直接复制使用
完整案例,可以直接使用。flinksql 消费kafka整体来说是十分简单好用的,使用时门口较低,实时性又高
2023-04-23 17:12:05 2720
原创 DataEase二开记录--踩坑和详细步骤(三)增加权限功能
这篇文章是关于dataease的权限管理的,开源版本是没有权限管理的,任何账号看到的东西都一样,显然,这不能满足正常的使用。
2023-03-24 16:57:32 4571 13
原创 DataEase二开记录--踩坑和详细步骤(二)
最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。
2023-03-14 11:17:13 4658
原创 DataEase二开记录--踩坑和详细步骤(一)
最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。
2023-03-14 10:25:06 9611 4
原创 flink cdc MySQL2Doris 案例分享 解决分库多表同步
使用flink cdc,完成mysql 多库 多表同时同步到doris中
2022-11-18 14:28:53 3168 2
原创 flink doris batch案例
flinkSQL批处理,查询doris 结果还写入doris,使用flink-doris-connector。
2022-11-16 17:24:15 2704
原创 比properties更好用的读配置文件的方式
用properties.load()时总是要求改level为6,很不舒服学习了用别的方式读配置文件案例如下:一、需要的依赖有: <!--log4j日志核心包--> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.16
2022-04-20 15:25:37 611
原创 springboot快速写API,直接传sql作为参数
很久没写过接口了,很多都忘记了,找了找资料都是比较常见的方式,没有直接用sql做参数的。因为业务用数据可能会改,所以写成直接传sql的方式,后期省去了改的活,一劳永逸一、新建工程以上内容也可以手动在pom里添加二、配置用到的pom如下 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-s
2022-03-15 11:02:17 2292
原创 使用stream load向doris写数据的案例
使用stream load向doris写数据的案例代码涉及到的依赖如下 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency> <
2022-03-01 09:54:56 1526
原创 记录ThreadPoolExecutor主线程等待子线程问题
在使用ThreadPoolExecutor启动线程池遇到一个问题:无法让主线程等待子线程完成后再继续执行。网上找了很多方法如:while循环进行轮询Thread类的join方法synchronized锁CountDownLatchFutureBlockingQueueCyclicBarrierLockSupport最后发现都不是适用于ThreadPoolExecutor。研究了很久才解决。案例如下package com.siger;import com.google.commo
2022-02-16 17:27:45 2931 1
原创 阿里巴巴提示:手动创建线程效果更好
原来创建方式ExecutorService executorService = Executors.newFixedThreadPool(threadNum);阿里的插件提示:手动创建线程效果好我看了一下解释:说是容易造成OOM,巧了,我之前就是出现这个问题。于是我使用了阿里推荐的方式穿件线程 ThreadFactory threadFactory = new ThreadFactoryBuilder().setNameFormat("thread-call-runner-%d").build(
2022-02-15 17:49:06 1707
原创 执行shell时出现No such file or directory问题
一、对于在服务器上新上传的start.sh脚本,启动时容易出现,-bash:./start.sh:/bin/sh^M: bad interpreter:No such file or directory一般情况是因为该sh脚本的格式不正确,如果这个脚本在你本地修改过(使用txt、notepad++打开修改),可能在保存的时候会默认把文件的格式保存为: doc格式(windows系统)、mac(苹果系统),那么在上传到系统后,unix系统是不支持doc(mac)格式的,那么就需要把doc(mac)格式的文件
2022-02-10 20:07:12 10444 1
原创 Flink案例——kafka、MySQL source
Flink案例——kafka、MySQL source一、kafka sourceflink和kafka的连接是十分友好的,毕竟是做流式处理的吧。首先依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</artifactId> <version>1.10.1</version>&
2022-01-14 15:27:24 1819
原创 spark小案例——sparkstreaming消费Kafka
使用sparkstreaming消费Kafka的数据,实现word count依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.12</artifactId> <version>3.0.0</version></dependency><depe
2021-10-12 12:23:29 1432
原创 spark小案例——RDD,sparkSQL
分别使用RDD和SparkSQL两种方式解决相同的数据分析问题;项目数据项目需求使用RDD和SQL两种方式对数据清洗清洗需求如下:统计每个店铺分别有多少商品统计每个店铺的总销售额统计每个店铺销售额最高的前三商品,输出内容包括:店铺名,商品名和销售额其中销售额为0的商品不进行统计计算,例如:如果某个店铺销售为 0则不进行统计 。涉及到的pom依赖 <properties> <scala.version>2.12.10</scala.versio
2021-10-10 14:09:00 1494
原创 spark小案例——RDD,broadcast
RDD小案例object RDD01 { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD01") val sc: SparkContext = new SparkContext(sparkConf) //从集合中创建RDD,spark提供了两个方法,parallelize和makeRD
2021-10-10 10:40:08 876
原创 spark案例——wordcount
local本地模式添加pom依赖<properties> <scala.version>2.12.0</scala.version> </properties><dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</arti
2021-10-09 10:49:59 581
原创 大数据常用工具类——redisUtil
redis工具类一、所需pom依赖 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.7.0</version> </dependency> <dependency> <groupId>org
2021-10-02 15:29:09 842
原创 spark优化
1 Spark参数优化Executor端的内存主要分为三块:第一块就是让Task执行我们自己编写的代码时使用,默认占用总内存的20%;第二块是让task通过shuffle过程拉取上一个stage的task的输出后,进行聚合等操作时使用,默认也是占用总内存的20%;第三块是让RDD持久化时使用,默认占用总内存的60%。1.1 num-executors参数建议:一般每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适,设置太多和太少都不合适,太少的话,无法有效充分利用集
2021-09-20 16:06:24 781
原创 Spark常见问题整理--面试前必看
一、job、stage、Task之间的关系是什么?一个job可以包含多个stage一个stage包含多个task二、job、stage、Task之间的关系是什么?每提交一个任务,就会创建一个job,即调用action算子的时候会创建job【当调用算子之后返回值不是RDD类型的就可以归为Action算子】根据宽依赖和窄依赖划分stage,如果是宽依赖,就新增一个stageTask数量实际上就是分区的数量三、什么是宽依赖、窄依赖?如果一个父RDD分区被多个子RDD的分区使用,就
2021-09-20 16:00:42 1034
原创 Flink的安装部署及WordCount测试
一、本地模式在本地以多线程的方式模拟Flink中的多个角色。(开发环境不用)下载地址:https://flink.apache.org/downloads.html这里下载的是:flink-1.13.0-bin-scala_2.12.tgz上传到常用的位置,然后解压。启动:切换到flink的bin目录下,执行./start-cluster.sh,然后查看进程。二、Standalone 独立集群模式(如果先做了第一步,记得先停止服务,stop-cluster.sh)上传、解压tar包。
2021-09-19 17:45:30 2473
原创 Flink必知必会的重要基本知识
一、Flink基本知识1.1、Flink介绍Apache Flink 是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态计算。Flink 官网:https://flink.apache.org/Flink 的中文官网:https://flink.apache.org/zh/1.2、有界与无界1.2.1、有界数据集有头有尾。处理的数据一定会在某个时间范围内,有可能是一天,也有可能是一分钟,像这样有开始有结束的数据集,叫做有界数据集。对有界数据集的处理叫批处理。1.2.2、无界数据集
2021-09-19 12:15:37 2041
原创 hive储存与压缩
Hive支持的储存格式主要有:textfile(行列存储)、sequencefile(行列存储)、ORC(列式存储)、parquet(列式存储)1.1、行式存储和列式存储 左图为逻辑表,右边第一个为行式存储,第二个为列式存储**行式存储的特点:**查询满足条件的一整行数据的时候,列存储需要每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻的地方,所以此时行存储查询的速度更快。 select * 效率高 。**列存储的特点:**因为每个字段的数据聚集存储,在查
2021-09-14 17:14:37 1234
原创 druid--JDBC工具类案例
什么是Druid? Druid是一个高效的数据查询系统,主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入,进入到Druid后立即可查,同时数据是几乎是不可变。通常是基于时序的事实事件,事实发生后进入Druid,外部系统就可以对该事实进行查询。 目前常用的数据源主要有c3p0、dbcp、proxool、druid。Druid特点: 亚秒级查询:druid提供了快速的聚合能力以及亚秒级的OLAP查询能力,多租户的设计,是面向用户分析应用的理想方式实时数据注入:druid支持流数据的
2021-09-13 16:38:38 2252
原创 pip3安装requests库-最全踩坑整理
pip3 install requests的时候,遇到了好多坑,现在总结一下。愿你用不上。一、ssl module in Python is not available这是第一个问题安装opensslyum install opensslyum install openssl-devel重新源码安装./configure --prefix=/usr/local/python3/ --enable-shared --enable-loadable-sqlite-extensions ma
2021-09-05 21:13:59 4924 1
原创 HBase基本知识
定义HBase是一种分布式、可扩展、支持海量数据存数的NoSQL数据库。HBase数据模型HBase的数据模型与关系型数据库类似,数据存储在一张表中,有行有列,但是HBase的底层物理结构是(K-V)。使用HBase的情况当满足以下情况的时候,使用HBase,才能发挥它的作用表单的数据量超千万,且并发挺高数据分析需求较弱,或者不需要那么灵活和实时HBase的优缺点优点列可以动态增加,并且列为空就不存储数据,节省存储空间。Hbase自动切分数据,使得数据存储自动具有水平scalabili
2021-08-31 20:02:52 2074
flink-sql-connector-mysql-cdc-2.2.0.jar
2022-11-18
mysql2hbase.7z
2021-07-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人