自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yang灬仔

低调的写文章!

  • 博客(407)
  • 资源 (8)
  • 收藏
  • 关注

原创 Flink几个性能调优

flink性能优化

2023-10-24 10:56:32 608

原创 Flink stop 和 cancel停止 job 的区别

Flink stop 和 cancel停止 job 的区别

2023-06-28 15:08:02 2199 1

原创 数据人员常用名词解析:指标、标签、度量、口径、数据标准、血缘等

这里整理了数据人员,经常会接触到的名词和概念,了解这些专有名词对于数据研发和数据分析时的人员协作及研发都有很高的作用。

2023-06-20 16:43:52 513

原创 SpringBoot 项目打成 .exe 程序

前后端合并的spring boot项目,达成exe文件

2022-12-23 11:40:03 1021 1

原创 Flink CDC 经典13 问

flinkcdc 内容

2022-12-05 16:52:52 1342

原创 将项目上传到Github 步骤

如何将项目上传到Github的步骤

2022-10-24 09:52:37 1661

原创 Flink经典的生产问题和解决方案

Flink经典的生产问题和解决方案

2022-10-24 08:00:00 1159

原创 Idea springboot 配置https

由于HTTPS具有良好的安全性,在开发中得到了越来越广泛的应用,像微信公众号、小程序等的开发都要使用HTTPS来完成。

2022-07-21 08:42:57 1841

原创 datax自检报错 /datax/plugin/reader/._drdsreader/plugin.json]不存在

在datax/plugin目录下运行自检报错

2022-07-05 19:37:17 2970

原创 SparkSQL——各区域热门商品TOP3

各区域热门商品TOP3

2022-06-17 15:46:57 1640

原创 idea Git Pull Failed refusing to merge unrelated histories

在idea 将本地代码添加到远程仓库,然后pull远程仓库代码时,报错 Failed refusing to merge unrelated histories

2022-06-17 15:26:26 1358

原创 gitee 实现多人提交到同一个仓库

一、缘由1、在使用GitHub或gitee时,如果A创建了项目仓库,让B参与开发,一般情况下是需要B fork后,然后在自己的项目中开发,提交后,给A项目(原始项目)发送一个新的request,A在自己的仓库中进行合并后,才能看到最新的效果。2、原作者进行了更新,B不能马上看到,而是还需要进行一次request才可以看到以上这种是因为权限问题,因为你不能直接给A提交代码,这样会不可控。通常情况下如果不是信任的人,这是正常的工作模式。但是如果是2个人或多个人作为一个团队一起开发一个项目,再这样

2022-05-17 11:52:10 3070

原创 SparkSql 3.0 UDAF 求和,求平均

使用spark sql 3.0版本自定义UDFA ,3.0版本之前 extends UserDefinedAggregateFunction 已经过时新方法如下代码:代码中自定义了求和,求平均package com.cy.sparkimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.expressions.{Aggregator, Mu..

2022-05-10 16:44:39 883

原创 squirrel 通过phoenix 连接 hbase

squirrel下载从网址http://www.squirrelsql.org/下载相应版本的squirrel的安装jar包,好比下载squirrel-sql-3.8.1-standard.jar window版本。1.4.3.2 squirrel安装Window下:经过cmd进入window控制台,输入 java -jar squirrel-sql-3.8.1-standard.jar显示安装界面。出现安装界面以后,一直点击下一步下一步,直到最终执行完毕。点击Done,最

2022-05-10 10:08:23 633

原创 ERROR 1193 (HY000): Unknown system variable ‘validate_password_policy‘

mysql 5.7安全策略设置 报错ERROR 1193 (HY000): Unknown system variable 'validate_password_policy'为了方便,想要调低mysql 5.7版本的密码级别,于是乎直接设置:设置密码策略最低级别mysql> set global validate_password_policy=0;ERROR 1193 (HY000): Unknown system variable 'validate_password_policy

2022-05-09 20:38:32 7121 1

原创 CentOS7版本中 -bash: locate: 未找到命令

CentOS7版本中 -bash: locate: 未找到命令使用命令locate时发现系统显示:-bash: locate: 未找到命令,遇到错误。它的原因是:在CentOS 7 系统中默认没有安装该命令。以下为解决办法:1.安装"locate"命令即可。在终端运行“yum install mlocate”命令。2.下载好之后会提示我们:Is this ok [y/d/N]:,这一步我们输入y3.安装好之后,locate命令已安装完成。接下来需更新文件资料库,输入命令:upd.

2022-05-09 09:19:03 1396

原创 Dbeaver Phoenix 各种报错

Dbeaver 连接Phoenix 失败,各种报错:Unexpected driver error occurred while connecting to the databasejava.lang.RuntimeException:class org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback not org.apache.hadoop.security.GroupMappingServiceProviderER..

2022-04-13 10:50:41 6510 5

原创 Idea配置 阿里云 Spring Initializr URL

Idea默认Strart services url Idea中默认使用为https://start.spring.io/,国内网络如果不稳定创建工程会很慢 修改为阿里云地址 https://start.aliyun.com/

2022-03-30 16:03:59 10342 4

原创 hive 传参脚本

向hive脚本中传入参数,两种情况:一、shell脚本调度hive脚本, hive可以直接读取系统变量和环境变量hive脚本--#test.sqluse huh;select '${env:month}' as month from table_name;脚本传参--#start.sh#!/bin/shset -xexport month=`date -d 'last month' +%Y-%m`hive -f test.sql二、使用-hivevar 和 -hive

2022-03-30 15:53:18 2519

原创 常用SQL脚本大全

1、行转列的用法PIVOTCREATEtabletest(idint,namenvarchar(20),quarterint,numberint)insertintotestvalues(1,N'苹果',1,1000)insertintotestvalues(1,N'苹果',2,2000)insertintotestvalues(1,N'苹果',3,4000)insertintotestvalues(1,N'苹果',4,5000)insertinto...

2022-03-25 16:15:20 4605

原创 Phoenix schema的 启用、操作、关闭

SCHEMA 的启用、操作、关闭1,启用 SCHEMA注意:Phoenix中将HBase的namespace叫做SCHEMA,相当于mysql中的库的概念。(1)默认Phoenix的自定义SCHEMA并没有开启,需要在HBase的hbase-site.xml中增加以下配置项,然后重启Hbase:<property> <name>phoenix.schema.isNamespaceMappingEnabled</nam...

2022-03-19 09:36:54 1459

原创 flink 异步IO AsyncFunction

flink使用AsyncFunction在流式处理的过程中, 在中间步骤的处理中, 如果涉及到一些费事的操作或者是外部系统的数据交互, 那么就会给整个流造成一定的延迟. 在 flink 的 1.2 版本中引入了 Asynchronous I/O, 能够支持异步的操作, 以提高 flink 系统与外部数据系统交互的性能及吞吐量.在使用 Flink 的异步 IO 时, 主要有两个 API可以使用, 一个是AsyncDataStream.unorderedWait( ), ...

2022-03-19 09:33:21 1023

原创 Flink broadcast的用法

在Flink中,同一个算子可能存在若干个不同的并行实例,计算过程可能不在同一个Slot中进行,不同算子之间更是如此,因此不同算子的计算数据之间不能像Java数组之间一样互相访问,而广播变量Broadcast便是解决这种情况的.在 flink 中, 针对某一个算子需要使用公共变量的情况下, 就可以把对应的数据给广播出去, 这样在所有的节点中都可以使用了. 典型的代码结构如下所示:在一个算子中使用广播变量主要有两个步骤: 广播变量 (一般写在算子的后面即可) 使...

2022-03-18 16:39:47 4030

原创 Flink Savepoint 和 Checkpoint 使用

flink Savepoint 和 Checkpoint 使用checkpoint 应用定时触发,用于保存状态,会过期 内部应用失败重启的时候使用,特点是作业容错自动恢复,轻量,自动周期管理 savepoint 用户手动执行,是指向Checkpoint的指针,不会过期 在升级的情况下使用,特点关注状态数据可以移植性,状态数据生成和恢复成本高,用户手动管理 注意:为了能够在作业的不同版本之间以及 Flink 的不同版本之间顺利升级,强烈推荐程序员通过 uid(String) 方法手动的给

2022-03-17 10:54:53 4490

原创 FLINK提交任务的两种方式

FLINK提交任务的两种方式1、命令行提交bin/flink run -m hadoop:8081 -c cn.test.day01.StreamWordCount -p 4 /test/flink-java-1.0.jar-m 指定jobmanager的位置 -c 程序的全类名 -p 指定并行度更多参数参考:Flink 命令行提交参数2、web页面提交这里上传jar包实际上是传到了JobManager所在的节点...

2022-03-17 10:03:29 9005

原创 Flink 命令行提交参数

Flink 命令行提交参数:1 参数必选 : -n,--container <arg> 分配多少个yarn容器 (=taskmanager的数量) 2 参数可选 : -D <arg> 动态属性 -d,--detached 独立运行 -jm,--jobManagerMemory <arg> JobManager的内存 [i

2022-03-17 09:58:51 10226

原创 Flink operator-state 和 keyed-state 两者的区别

operator-state 和 keyed-state 两者的区别详细描述一下上面的问题:operator-state 和 keyed-state 两者的区别?最大并行度又和它们有什么关系?举个生产环境中经常出现的案例,当用户停止任务、更新代码逻辑并且改变任务并发度时,两种 state 都是怎样进行恢复的?总结如下:operator-state: 状态适用算子:所有算子都可以使用 operator-state,没有限制。 状态的创建方式:如果需要使用 op...

2022-03-12 10:03:31 479

原创 Flink 反压问题

一、反压有哪些危害? 任务处理性能出现瓶颈:以消费 Kafka 为例,大概率会出现消费 Kafka Lag。 Checkpoint 时间长或者失败:因为某些反压会导致 barrier 需要花很长时间才能对齐,任务稳定性差。 整个任务完全卡住。比如在 TUMBLE 窗口算子的任务中,反压后可能会导致下游算子的 input pool 和上游算子的 output pool 满了,这时候如果下游窗口的 watermark 一直对不齐,窗口触发不了计算的话,下游算子就永远无法触发窗口计算了。

2022-03-12 09:54:52 8155

原创 Hive3.1.2 shell 打印大量日志问题

在hive-3.1.x版本中,使用hive shell时,会发现在查询命令中夹杂大量的日志信息,严重干扰查询结果显示,特别是强迫症患者,不能忍受。通过修改conf下的日志文件,会发现不起任何作用。解决办法:1.在 Hive 安装目录的 conf 目录下创建出 log4j.properties 日志配置文件,以WARN 级别为例:2.添加如下内容:log4j.rootLogger=WARN, CAlog4j.appender.CA=org.apache.log4j.ConsoleApp

2022-01-21 14:29:34 6605 7

原创 Embedded metastore is not allowed. Make sure you have set a valid value for hive.metastore.uris

flink集成hive 启动:flink-sql 报错:./sql-client.sh embedded报错如下:2021-12-18 17:49:42,129 INFO org.apache.hadoop.hive.conf.HiveConf [] - Found configuration file file:/home/hadoop/apps/hive-3.1.2/conf/hive-site.xmlException in thr...

2021-12-24 09:18:52 3016 1

原创 flinkHive com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

flink集成hive 启动:flink-sql 报错:./sql-client.sh embedded报错如下:Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an issue. at org.apache.flink.table.client.SqlClien...

2021-12-24 09:12:31 1433 3

原创 Flink集成Hive ClassNotFoundException: org.apache.hadoop.conf.Configuration

Apache Hive 是基于 Hadoop 之上构建的, 所以还需要 Hadoop 的依赖,配置好HADOOP_CLASSPATH即可。这一点非常重要,否则在使用FlinkSQL Cli查询Hive中的表时,会报如下错误:Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an i

2021-12-24 08:58:28 6601

原创 Flink集成Hive 步骤

使用Hive构建数据仓库已经成为了比较普遍的一种解决方案。目前,一些比较常见的大数据处理引擎,都无一例外兼容Hive。Flink从1.9开始支持集成Hive,不过1.9版本为beta版,不推荐在生产环境中使用。在Flink1.10版本中,标志着对 Blink的整合宣告完成,对 Hive 的集成也达到了生产级别的要求。值得注意的是,不同版本的Flink对于Hive的集成有所差异,本文将以最新的Flink1.12版本为例,阐述Flink集成Hive的简单步骤Flink集成...

2021-12-24 08:52:44 2643 1

原创 Flink任务提交给Yarn,web界面显示slot 为0,运行程序显示只有一个Taskmanager

使用yarn-session在yarn集群上启动一个flink集群:./yarn-session.sh -n 4 -jm 1024 -tm 1024 -s 2此时,在master:8088的界面看到多了一个application,但是running containers数量为1;【为何不是分配的4】然后,继续在yarn上提交flink的jar包运行:./flink run -p 4 /home/hadoop/proj/wordcount.jar点开8088界面的Tracking

2021-11-30 11:50:12 2355 1

原创 canal启动错误:虚拟机内存不够 Out of Memory Error (os_linux.cpp:2640), pid=28190, tid=0x00007ff86f957700

报错:## There is insufficient memory for the Java Runtime Environment to continue.# Native memory allocation (mmap) failed to map 1073741824 bytes for committing reserved memory.# Possible reasons:# The system is out of physical RAM or swap space# .

2021-11-30 11:43:50 1335

原创 大数据开发常用命令大全 大全

目录Linux(vi/vim)HadoopZookeeperKafkaHiveRedisFlinkLinux(vi/vim)一般模式语法 功能描述 yy 复制光标当前一行 y数字y 复制一段(从第几行到第几行) p 箭头移动到目

2021-11-23 16:47:12 265

原创 Flink 1.12 以 upsert 的方式读写 Kafka 数据

在某些场景中,比如GROUP BY聚合之后的结果,需要去更新之前的结果值。这个时候,需要将 Kafka 消息记录的 key 当成主键处理,用来确定一条数据是应该作为插入、删除还是更新记录来处理。在Flink1.11中,可以通过flink-cdc-connectors项目提供的changelog-json format来实现该功能。关于该功能的使用,在Flink1.12版本中, 新增了一个upsert connector(upsert-kafka),该 connector 扩展自现有的 Kafka...

2021-11-09 11:32:21 3063 2

原创 Flink Sql Append 、 Retract 和 Upsert 流区别

Append-only 流:仅通过 INSERT 操作修改的动态表可以通过输出插入的行转换为流。Retract 流:retract 流包含两种类型的 message: add messages 和 retract messages 。通过将INSERT 操作编码为 add message、将 DELETE 操作编码为 retract message、将 UPDATE 操作编码为更新(先前)行的 retract message 和更新(新)行的 add messag...

2021-11-09 11:23:33 4290

原创 实时数仓架构图总结

基于Flink的滴滴实时数仓实践分享嘉宾:潘澄,滴滴基础平台 资深研发工程师实时OLAP,从0到1分享嘉宾:高正炎,比特大陆腾讯基于Flink + Iceberg 全场景实时数仓的建设实践分享嘉宾:苏舒,腾讯平台 高级研发工程师腾讯看点基于Flink构建万亿数据量下的实时数仓及实时查询系统分享嘉宾:王展雄,腾讯看点数据团队高级工程师龙逸尘-Flink在顺丰的应用实践分享嘉宾:龙逸尘,顺丰科技..

2021-10-24 10:28:15 656

原创 VMware下的Linux扩展磁盘空间

VMware下的Linux扩展磁盘空间业务场景本文以 VMware® Workstation 15 Pro -15.5.6 build-16341506+ CentOS Linux release 7.5.1804 (Core)为测试机,本文为扩展原有硬盘空间,如需增加新硬盘请参考 链接: VMware下的Linux扩展磁盘空间(增加全新的硬盘空间)操作流程一、VMware 加内存如下图所示,此时可以看到虚拟机硬盘目前为25G,点击编辑虚拟机设置,进入虚拟机设置界面。分别按下图..

2021-10-20 16:50:58 1697

由于找不到VCRUNTIME140_1.dll,无法继续执行代码

初始化mysql数据库,运行命令 mysqld --initialize --console 报错,错误信息是:由于找不到VCRUNTIME140_1.dll,无法继续执行代码,重新安装程序可能会解决此问题。发生这个错误是,可以下载文件微软常用运行库合集,安装运行后,即可成功执行上面的代码了

2020-10-04

springboot整合neo4j完整demo

springboot集成neo4j图数据库,使用java语言连接数据库mysql和neo4j,实现将mysql数据插入neo4j中。 实现的功能有对neo4j数据进行统计分析、关系遍历增删改查等 。并且使用d3对查询结果数据进行页面展示!

2020-08-31

snmpb-0.8 安装包【开源的MIB浏览器】

SNMPB安装包资源下载,这个软件用于SNMPB安装和测试,学习SNMP很好用,尤其是使用SNMP4J的时候,运维人员基本都要使用,安装简单易用。下载方便

2020-08-31

SSM+Echarts实现动态可视化.7z

代码使用SSM框架和Echarts结合实现的读取mysql数据库的数据来实现动态可视化,可视化实现了多张图表,语句完整,导入就可使用运行。

2020-03-06

Apsara Clouder基础技能认证:阿里巴巴编码规范相关问题总结.zip

Apsara Clouder基础技能认证:阿里巴巴编码规范手册-java, 本文档找到90%以上的java 认证试题,放心下载,一次通过。

2020-03-06

Activity5全面使用手册.zip

Activity5 开发使用手册,文档包含了ssh集成Activity5的方法 文档、html文档 和 word文档,可全面学习使用

2019-07-29

大鱼吃小鱼 U3D C#

unity制作的大鱼吃小鱼游戏,供学习使用。功能挺完善的

2018-07-05

spring 整合 neo4j

代码中描述了使用spring如何连接neo4j 以及如何使用spring data 还整合了redis,尽情的学习吧,spring整合 neo4j!

2017-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除