- 博客(407)
- 资源 (8)
- 收藏
- 关注
原创 数据人员常用名词解析:指标、标签、度量、口径、数据标准、血缘等
这里整理了数据人员,经常会接触到的名词和概念,了解这些专有名词对于数据研发和数据分析时的人员协作及研发都有很高的作用。
2023-06-20 16:43:52
925
原创 Idea springboot 配置https
由于HTTPS具有良好的安全性,在开发中得到了越来越广泛的应用,像微信公众号、小程序等的开发都要使用HTTPS来完成。
2022-07-21 08:42:57
2332
1
原创 datax自检报错 /datax/plugin/reader/._drdsreader/plugin.json]不存在
在datax/plugin目录下运行自检报错
2022-07-05 19:37:17
4105
原创 idea Git Pull Failed refusing to merge unrelated histories
在idea 将本地代码添加到远程仓库,然后pull远程仓库代码时,报错 Failed refusing to merge unrelated histories
2022-06-17 15:26:26
1860
原创 gitee 实现多人提交到同一个仓库
一、缘由1、在使用GitHub或gitee时,如果A创建了项目仓库,让B参与开发,一般情况下是需要B fork后,然后在自己的项目中开发,提交后,给A项目(原始项目)发送一个新的request,A在自己的仓库中进行合并后,才能看到最新的效果。2、原作者进行了更新,B不能马上看到,而是还需要进行一次request才可以看到以上这种是因为权限问题,因为你不能直接给A提交代码,这样会不可控。通常情况下如果不是信任的人,这是正常的工作模式。但是如果是2个人或多个人作为一个团队一起开发一个项目,再这样
2022-05-17 11:52:10
3636
原创 SparkSql 3.0 UDAF 求和,求平均
使用spark sql 3.0版本自定义UDFA ,3.0版本之前 extends UserDefinedAggregateFunction 已经过时新方法如下代码:代码中自定义了求和,求平均package com.cy.sparkimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.expressions.{Aggregator, Mu..
2022-05-10 16:44:39
1022
原创 squirrel 通过phoenix 连接 hbase
squirrel下载从网址http://www.squirrelsql.org/下载相应版本的squirrel的安装jar包,好比下载squirrel-sql-3.8.1-standard.jar window版本。1.4.3.2 squirrel安装Window下:经过cmd进入window控制台,输入 java -jar squirrel-sql-3.8.1-standard.jar显示安装界面。出现安装界面以后,一直点击下一步下一步,直到最终执行完毕。点击Done,最
2022-05-10 10:08:23
779
原创 ERROR 1193 (HY000): Unknown system variable ‘validate_password_policy‘
mysql 5.7安全策略设置 报错ERROR 1193 (HY000): Unknown system variable 'validate_password_policy'为了方便,想要调低mysql 5.7版本的密码级别,于是乎直接设置:设置密码策略最低级别mysql> set global validate_password_policy=0;ERROR 1193 (HY000): Unknown system variable 'validate_password_policy
2022-05-09 20:38:32
7509
1
原创 CentOS7版本中 -bash: locate: 未找到命令
CentOS7版本中 -bash: locate: 未找到命令使用命令locate时发现系统显示:-bash: locate: 未找到命令,遇到错误。它的原因是:在CentOS 7 系统中默认没有安装该命令。以下为解决办法:1.安装"locate"命令即可。在终端运行“yum install mlocate”命令。2.下载好之后会提示我们:Is this ok [y/d/N]:,这一步我们输入y3.安装好之后,locate命令已安装完成。接下来需更新文件资料库,输入命令:upd.
2022-05-09 09:19:03
1580
原创 Dbeaver Phoenix 各种报错
Dbeaver 连接Phoenix 失败,各种报错:Unexpected driver error occurred while connecting to the databasejava.lang.RuntimeException:class org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback not org.apache.hadoop.security.GroupMappingServiceProviderER..
2022-04-13 10:50:41
8039
5
原创 Idea配置 阿里云 Spring Initializr URL
Idea默认Strart services url Idea中默认使用为https://start.spring.io/,国内网络如果不稳定创建工程会很慢 修改为阿里云地址 https://start.aliyun.com/
2022-03-30 16:03:59
16660
7
原创 hive 传参脚本
向hive脚本中传入参数,两种情况:一、shell脚本调度hive脚本, hive可以直接读取系统变量和环境变量hive脚本--#test.sqluse huh;select '${env:month}' as month from table_name;脚本传参--#start.sh#!/bin/shset -xexport month=`date -d 'last month' +%Y-%m`hive -f test.sql二、使用-hivevar 和 -hive
2022-03-30 15:53:18
2661
原创 常用SQL脚本大全
1、行转列的用法PIVOTCREATEtabletest(idint,namenvarchar(20),quarterint,numberint)insertintotestvalues(1,N'苹果',1,1000)insertintotestvalues(1,N'苹果',2,2000)insertintotestvalues(1,N'苹果',3,4000)insertintotestvalues(1,N'苹果',4,5000)insertinto...
2022-03-25 16:15:20
5354
1
原创 Phoenix schema的 启用、操作、关闭
SCHEMA 的启用、操作、关闭1,启用 SCHEMA注意:Phoenix中将HBase的namespace叫做SCHEMA,相当于mysql中的库的概念。(1)默认Phoenix的自定义SCHEMA并没有开启,需要在HBase的hbase-site.xml中增加以下配置项,然后重启Hbase:<property> <name>phoenix.schema.isNamespaceMappingEnabled</nam...
2022-03-19 09:36:54
1759
原创 flink 异步IO AsyncFunction
flink使用AsyncFunction在流式处理的过程中, 在中间步骤的处理中, 如果涉及到一些费事的操作或者是外部系统的数据交互, 那么就会给整个流造成一定的延迟. 在 flink 的 1.2 版本中引入了 Asynchronous I/O, 能够支持异步的操作, 以提高 flink 系统与外部数据系统交互的性能及吞吐量.在使用 Flink 的异步 IO 时, 主要有两个 API可以使用, 一个是AsyncDataStream.unorderedWait( ), ...
2022-03-19 09:33:21
1307
原创 Flink broadcast的用法
在Flink中,同一个算子可能存在若干个不同的并行实例,计算过程可能不在同一个Slot中进行,不同算子之间更是如此,因此不同算子的计算数据之间不能像Java数组之间一样互相访问,而广播变量Broadcast便是解决这种情况的.在 flink 中, 针对某一个算子需要使用公共变量的情况下, 就可以把对应的数据给广播出去, 这样在所有的节点中都可以使用了. 典型的代码结构如下所示:在一个算子中使用广播变量主要有两个步骤: 广播变量 (一般写在算子的后面即可) 使...
2022-03-18 16:39:47
4380
原创 Flink Savepoint 和 Checkpoint 使用
flink Savepoint 和 Checkpoint 使用checkpoint 应用定时触发,用于保存状态,会过期 内部应用失败重启的时候使用,特点是作业容错自动恢复,轻量,自动周期管理 savepoint 用户手动执行,是指向Checkpoint的指针,不会过期 在升级的情况下使用,特点关注状态数据可以移植性,状态数据生成和恢复成本高,用户手动管理 注意:为了能够在作业的不同版本之间以及 Flink 的不同版本之间顺利升级,强烈推荐程序员通过 uid(String) 方法手动的给
2022-03-17 10:54:53
4972
原创 FLINK提交任务的两种方式
FLINK提交任务的两种方式1、命令行提交bin/flink run -m hadoop:8081 -c cn.test.day01.StreamWordCount -p 4 /test/flink-java-1.0.jar-m 指定jobmanager的位置 -c 程序的全类名 -p 指定并行度更多参数参考:Flink 命令行提交参数2、web页面提交这里上传jar包实际上是传到了JobManager所在的节点...
2022-03-17 10:03:29
9417
原创 Flink 命令行提交参数
Flink 命令行提交参数:1 参数必选 : -n,--container <arg> 分配多少个yarn容器 (=taskmanager的数量) 2 参数可选 : -D <arg> 动态属性 -d,--detached 独立运行 -jm,--jobManagerMemory <arg> JobManager的内存 [i
2022-03-17 09:58:51
12956
原创 Flink operator-state 和 keyed-state 两者的区别
operator-state 和 keyed-state 两者的区别详细描述一下上面的问题:operator-state 和 keyed-state 两者的区别?最大并行度又和它们有什么关系?举个生产环境中经常出现的案例,当用户停止任务、更新代码逻辑并且改变任务并发度时,两种 state 都是怎样进行恢复的?总结如下:operator-state: 状态适用算子:所有算子都可以使用 operator-state,没有限制。 状态的创建方式:如果需要使用 op...
2022-03-12 10:03:31
653
原创 Flink 反压问题
一、反压有哪些危害? 任务处理性能出现瓶颈:以消费 Kafka 为例,大概率会出现消费 Kafka Lag。 Checkpoint 时间长或者失败:因为某些反压会导致 barrier 需要花很长时间才能对齐,任务稳定性差。 整个任务完全卡住。比如在 TUMBLE 窗口算子的任务中,反压后可能会导致下游算子的 input pool 和上游算子的 output pool 满了,这时候如果下游窗口的 watermark 一直对不齐,窗口触发不了计算的话,下游算子就永远无法触发窗口计算了。
2022-03-12 09:54:52
8723
原创 Hive3.1.2 shell 打印大量日志问题
在hive-3.1.x版本中,使用hive shell时,会发现在查询命令中夹杂大量的日志信息,严重干扰查询结果显示,特别是强迫症患者,不能忍受。通过修改conf下的日志文件,会发现不起任何作用。解决办法:1.在 Hive 安装目录的 conf 目录下创建出 log4j.properties 日志配置文件,以WARN 级别为例:2.添加如下内容:log4j.rootLogger=WARN, CAlog4j.appender.CA=org.apache.log4j.ConsoleApp
2022-01-21 14:29:34
8599
9
原创 Embedded metastore is not allowed. Make sure you have set a valid value for hive.metastore.uris
flink集成hive 启动:flink-sql 报错:./sql-client.sh embedded报错如下:2021-12-18 17:49:42,129 INFO org.apache.hadoop.hive.conf.HiveConf [] - Found configuration file file:/home/hadoop/apps/hive-3.1.2/conf/hive-site.xmlException in thr...
2021-12-24 09:18:52
3519
1
原创 flinkHive com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V
flink集成hive 启动:flink-sql 报错:./sql-client.sh embedded报错如下:Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an issue. at org.apache.flink.table.client.SqlClien...
2021-12-24 09:12:31
1590
3
原创 Flink集成Hive ClassNotFoundException: org.apache.hadoop.conf.Configuration
Apache Hive 是基于 Hadoop 之上构建的, 所以还需要 Hadoop 的依赖,配置好HADOOP_CLASSPATH即可。这一点非常重要,否则在使用FlinkSQL Cli查询Hive中的表时,会报如下错误:Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an i
2021-12-24 08:58:28
7444
原创 Flink集成Hive 步骤
使用Hive构建数据仓库已经成为了比较普遍的一种解决方案。目前,一些比较常见的大数据处理引擎,都无一例外兼容Hive。Flink从1.9开始支持集成Hive,不过1.9版本为beta版,不推荐在生产环境中使用。在Flink1.10版本中,标志着对 Blink的整合宣告完成,对 Hive 的集成也达到了生产级别的要求。值得注意的是,不同版本的Flink对于Hive的集成有所差异,本文将以最新的Flink1.12版本为例,阐述Flink集成Hive的简单步骤Flink集成...
2021-12-24 08:52:44
3201
1
原创 Flink任务提交给Yarn,web界面显示slot 为0,运行程序显示只有一个Taskmanager
使用yarn-session在yarn集群上启动一个flink集群:./yarn-session.sh -n 4 -jm 1024 -tm 1024 -s 2此时,在master:8088的界面看到多了一个application,但是running containers数量为1;【为何不是分配的4】然后,继续在yarn上提交flink的jar包运行:./flink run -p 4 /home/hadoop/proj/wordcount.jar点开8088界面的Tracking
2021-11-30 11:50:12
2705
1
原创 canal启动错误:虚拟机内存不够 Out of Memory Error (os_linux.cpp:2640), pid=28190, tid=0x00007ff86f957700
报错:## There is insufficient memory for the Java Runtime Environment to continue.# Native memory allocation (mmap) failed to map 1073741824 bytes for committing reserved memory.# Possible reasons:# The system is out of physical RAM or swap space# .
2021-11-30 11:43:50
1538
原创 大数据开发常用命令大全 大全
目录Linux(vi/vim)HadoopZookeeperKafkaHiveRedisFlinkLinux(vi/vim)一般模式语法 功能描述 yy 复制光标当前一行 y数字y 复制一段(从第几行到第几行) p 箭头移动到目
2021-11-23 16:47:12
471
原创 Flink 1.12 以 upsert 的方式读写 Kafka 数据
在某些场景中,比如GROUP BY聚合之后的结果,需要去更新之前的结果值。这个时候,需要将 Kafka 消息记录的 key 当成主键处理,用来确定一条数据是应该作为插入、删除还是更新记录来处理。在Flink1.11中,可以通过flink-cdc-connectors项目提供的changelog-json format来实现该功能。关于该功能的使用,在Flink1.12版本中, 新增了一个upsert connector(upsert-kafka),该 connector 扩展自现有的 Kafka...
2021-11-09 11:32:21
3498
3
原创 Flink Sql Append 、 Retract 和 Upsert 流区别
Append-only 流:仅通过 INSERT 操作修改的动态表可以通过输出插入的行转换为流。Retract 流:retract 流包含两种类型的 message: add messages 和 retract messages 。通过将INSERT 操作编码为 add message、将 DELETE 操作编码为 retract message、将 UPDATE 操作编码为更新(先前)行的 retract message 和更新(新)行的 add messag...
2021-11-09 11:23:33
4691
原创 实时数仓架构图总结
基于Flink的滴滴实时数仓实践分享嘉宾:潘澄,滴滴基础平台 资深研发工程师实时OLAP,从0到1分享嘉宾:高正炎,比特大陆腾讯基于Flink + Iceberg 全场景实时数仓的建设实践分享嘉宾:苏舒,腾讯平台 高级研发工程师腾讯看点基于Flink构建万亿数据量下的实时数仓及实时查询系统分享嘉宾:王展雄,腾讯看点数据团队高级工程师龙逸尘-Flink在顺丰的应用实践分享嘉宾:龙逸尘,顺丰科技..
2021-10-24 10:28:15
748
原创 VMware下的Linux扩展磁盘空间
VMware下的Linux扩展磁盘空间业务场景本文以 VMware® Workstation 15 Pro -15.5.6 build-16341506+ CentOS Linux release 7.5.1804 (Core)为测试机,本文为扩展原有硬盘空间,如需增加新硬盘请参考 链接: VMware下的Linux扩展磁盘空间(增加全新的硬盘空间)操作流程一、VMware 加内存如下图所示,此时可以看到虚拟机硬盘目前为25G,点击编辑虚拟机设置,进入虚拟机设置界面。分别按下图..
2021-10-20 16:50:58
2098
1
由于找不到VCRUNTIME140_1.dll,无法继续执行代码
2020-10-04
springboot整合neo4j完整demo
2020-08-31
snmpb-0.8 安装包【开源的MIB浏览器】
2020-08-31
SSM+Echarts实现动态可视化.7z
2020-03-06
Apsara Clouder基础技能认证:阿里巴巴编码规范相关问题总结.zip
2020-03-06
spring 整合 neo4j
2017-08-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人