- 博客(93)
- 收藏
- 关注
原创 hdfs常用命令
----待更新例如查看ods库大小:hadoop fs -du -s -h /user/hive/warehouse/ods.db如果要查看其他文件夹则改成该文件夹路径。去掉-h选项则按Byte单位显示。
2020-08-05 11:07:29 222
原创 ORACLE函数REGEXP_REPLACE,replace,instr,substr(待更新)
od.remark=‘05|01000016|20192020120|6222024********2135|||||||||3085840|5840|招商银丰城支行|6225847487548754|Auto测试贰叁捌|||Y|1.06|JS|11|308584001602|0.0||’REGEXP_REPLACE(replace( case when substr(od.remark,in...
2019-12-04 19:20:04 872
原创 hive建模和优化,impala刷新元数据和表
建模1、介绍Hive作为数据仓库,同关系型数据库开发过程类似,都需要先进行建模,所谓建模,就是对表之间指定关系方式。建模在hive中大致分为星型、雪花型和星座型。要对建模深入理解,首先需要对hive数仓中的集中表概念进行界定。hive中的表从形态上分内部表、外部表、桶表、分区表。在数据逻辑上划分为维度表和事实表。维度表等价于我们常说的字典表。事实表就是字典表之外的数据表。1.1 星型多张维...
2019-11-25 10:47:42 3526
原创 linux搭建mysql
1、下载mysql的包:wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.38-linux-glibc2.12-x86_64.tar.gz。4、复制下面的命令:在/usr/local/mysql目录下创建data目录(一定需要在这个目录中创建!3、解压完成后复制下面命令 移动这个目录到/usr/local目录下,并修改名字为mysql,创建好对应的目录/usr/local/mysql/data 和/usr/local/mysql。
2023-06-21 16:54:06 628
原创 关于dbt的配置和链接mysql测试
其中dbt-core是核心包, 必须安装, dbt-postgres是连接适配器, 演示使用postgres作为数据库, 可以根据实际的数据库类型选择其他种类的适配器, 例如:dbt-mysql;直接链接postgres数据库的见:https://zhuanlan.zhihu.com/p/560691123;6、https://docs.getdbt.com/docs/core/connect-data-platform/mysql-setup 官网测试mysql的。
2023-06-21 10:48:00 966
原创 用java递归的方式,递归查询数据库,把查询结果是主节点的去掉,并把剩下节点名称保存在集合返回
【代码】用java递归的方式,递归查询数据库,把查询结果是主节点的去掉,并把剩下节点名称保存在集合返回。
2023-06-02 16:36:16 289
原创 使用Druid SQL Parser解析SQL 获取多个来源表和对应的目标表
【代码】使用Druid SQL Parser解析SQL 获取多个来源表和对应的目标表。
2023-06-01 16:25:17 1319
原创 基于Prometheus+Grafana搭建可视化监控服务 (一) Prometheus监控
转发于基于Prometheus+Grafana搭建可视化监控服务(一)Prometheus监控目录基于Prometheus+Grafana搭建可视化监控服务(一)Prometheus及Exporter安装一、概述二、安装Prometheus2.1.安装Prometheus2.2.将Promethues配置成系统服务2.3.通过systemctl启动prometheus2.4.prometheus界面三、监控远程Linux主机。...
2022-08-02 11:21:36 1415 1
原创 sql 函数解析json类型字段一行转成多列 lateral view
表结构CREATE TABLE hive.tmp.tmp_all (row_wid varchar(1024),status string,)WITH (format = ‘ORC’)status的值为:数组presto的函数如果想要将ARRAY转换为一组行,即平展操作,可以使用UNNEST运算符。(注意函数名 unnest 不要写错了)UNNEST获取一个ARRAY,然后平铺成一个表,表中的每一行都是该ARRAY中的元素doris的数组解析符合特殊场景)......
2022-07-08 18:10:28 1565
原创 自动生成根据mysql表创建hive表脚本
#!/bin/bashsource /etc/profile#该脚本为手动传参根据MySQL表信息创建hive表#输入参数判断逻辑 必须数据两个参数,一个是MySQL库名,第二个是表名#if [ $# -eq 2 ];then# db_name=$1 ##mysql 库名# tbl_name=$2 ##MySQL 表名#else# echo "参数个数错误"# exit 8#fidb_name=$1tbl_name=$2DB_HOST='ip'DB_PO
2022-04-19 14:07:47 2655
原创 maven打包几种方式
第一种:打包分为lib依赖包 和程序运行包<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-dependency-plugin</artifactId> <executions> <execution> <id>copy-dependencies</id> <
2022-04-01 18:41:06 571
原创 关于metacat搭建和问题解决
网上全部只有metacat的介绍,没有具体的安装方式https://github.com/Netflix/metacat.git 源码下载下载后9.4.1改成8.8.1gorylenko 插件注释掉polaris报错的话可以删除整个模块functionalTest 注释掉gradlew clean build -x test 编译成功部署会报错swagger3的bug配置文件application.yml 里面测试的时候需要页面的时候需要springfox:documentation:
2022-03-22 17:03:51 1187
原创 面试问题小结
一、重点比较reduceByKey和groupByKey:相同点:1,都作用于 RDD[K,V]2,都是根据key来分组聚合3, 默认,分区的数量都是不变的,但是都可以通过参数来指定分区数量不同点:1, groupByKey默认没有聚合函数,得到的返回值类型是RDD[ k,Iterable[V]]2, reduceByKey 必须传聚合函数 得到的返回值类型 RDD[(K,聚合后的V)]3, groupByKey().map() = reduceByKey最重要的区别:reduceByK
2022-03-02 16:08:14 1773
原创 sqoop 导出到mysql或者其他关系型数据库问题
sqoop导出到mysql或者其他关系型数据库卡死1、长度溢出。导入的数据超过了mysql表的字段设定长度解决办法:重设字段长度即可2、编码错误。导入的数据不在mysql的编码字符集内解决办法:其实在mysql数据库中对应UTF-8字符集的不是utf8编码,而是utf8mb4编码。所以当你的导入数据里有若如Emoji表情或者一些生僻汉字时,就会导不进去造成阻塞卡住。所以你需要注意两点:(1)导入语句中限定useUnicode=true&characterEncoding=utf-8,表示以
2022-02-24 16:11:25 427
原创 ES同步到mongodb的文档
ELKELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 都是开源软件。elasticsearch:基于lucene的开源搜索引擎,是一个分布式的搜索分析系统,提供搜集、分析、存储数据三大功能。主要特点有:realtime data、real time analytics、distributed、high availability、multi-tenancy、fulltext search、document oriented、conflict m
2022-02-19 09:58:20 489
原创 crontab 禁止误删
禁止“crontab -r”误操作在/usr/bin下面新建cron.sh,内容如下#!/bin/bashsource ~/.bashrcetime=date -d "0 days ago" +%Y%m%d_%H%M%Sif [ “$1” = “-r” ] ; thenecho “My God! Dangerous…”echo “Exit…”exit 2fiif [ “$1” = “-l” ] ; then/usr/bin/crontab -lexit 0fiif [ "1"="
2022-01-27 18:00:59 317
原创 get和post请求
get 请求public String get(String url){CloseableHttpClient httpClient = null;HttpGet httpGet = null;String result="";try { httpClient = HttpClients.createDefault(); RequestConfig requestConfig = RequestConfig.custom().setSocketTimeout(20000).setC
2022-01-23 10:56:54 158
原创 spring boot集成mysql多数据源
依赖包<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> </dependency> <dependency> <groupId>org.springframework.boot</g
2022-01-22 18:02:43 869
原创 Springboot Mongodb 连接池配置
private MongoDbFactory mongoDbFactory(String uri) { return new SimpleMongoClientDbFactory(uri);} @Bean(name = "jq")public MongoTemplate getDjqKafkaExceptionMongoTemplate() { return new MongoTemplate(mongoDbFactory(jq));}Springboot Mongodb 连接
2021-12-09 19:17:58 3482
原创 awk 简单运用
awk 默认以空格为分割符倒数第一行awk ‘{print $(NF)}’倒数第二行awk ‘{print $(NF-1)}’awk ‘{print $0}’ demo.txt上面示例中,demo.txt是awk所要处理的文本文件。前面单引号内部有一个大括号,里面就是每一行的处理动作print $0。其中,print是打印命令,$0代表当前行,因此上面命令的执行结果,就是把每一行原样打印出来。echo ‘this is a test’ | awk ‘{print $3}’输出:a(正数第三)
2021-11-24 14:15:23 714
原创 解决@Scheduled注解不能同时执行多个定时任务的问题
spring 3.0版本后,自带了一个定时任务工具,而且使用简单方便,不用配置文件,可以动态改变执行状态。也可以使用cron表达式设置定时任务TaskScheduler接口的默认实现类,多线程定时任务执行。可以设置执行线程池数(默认一个线程)。所以多个定时在没设置线程池的时候,其实是单线程执行的,解决多个任务可以同时进行,在启动类里加上下面代码即可。@Configurationpublic class ScheduledConfig {@Beanpublic TaskScheduler tas
2021-11-19 15:35:18 980
原创 mongodb删除重复数据
删除user表name字段重复的数据db.user.aggregate([{ $group: { _id: {name: '$name'},count: {$sum: 1},dups: {$addToSet: '$_id'}}},{ $match: {count: {$gt: 1}}}]).forEach(function(doc){doc.dups.shift();db.user.remove({_id: {$in: doc.dups}});})1.根据name分组并
2021-05-10 16:50:10 294
原创 java调用脚本执行
String scriptPath = Property.getProperty("shell.path") + Property.getProperty(shellName); //scriptPath 脚本执行绝对路径 date db是传入参数,可以多个 String[] cmd = new String[]{scriptPath, date,db};private void execute(String [] cmd , String scriptPath) { String .
2021-03-15 14:28:10 220
原创 java 发送邮件
邮件配置文件:username : 发送者邮箱password:发送者密码host: ipsendEmailUsers:主送邮箱ccEmailUsers: 抄送邮箱private void sendMail(String title, String content) { EmailSendInfo mailInfo = new EmailSendInfo(); String host = Property.getProperty("host"); String usern
2021-03-03 14:53:07 166 1
原创 mongodb客户端操作链接以及导出导入命令
mongo mongodb://user:passwrod@IP:PORT/database?authSource=admin<<! db.tableName.remove({AC_DT:"$dateq"});!上面的链接是标准链接in=‘in′nin=′in'nin='in′nin=′nin’ne=‘ne′group=′ne'group='ne′group=′group’sum=‘sum′match=′sum'match='sum′match=′match’TXN_AMT
2021-02-26 15:46:32 216
原创 JAVA通过时间来重置kafka的偏移量
配置文件:groupId = newsetGroupId = asdtopics = kafkaTest1servers =IP:port,IP:porttime=20200714230000public class SetOffset {private static int partitionNum;private static String groupId;private static String topics;private static String servers;
2020-12-30 16:06:42 582
原创 IDEA上传代码冲突解决
git中如果本地有文件改动未提交、且该文件和服务器最新版本有冲突,pull更新会提示错误,无法更新.解决方式:要么先commit自己的改动然后再通过pull拉取代码,stash的好处是可以先将你的改动暂存到本地仓库中,随时可以取出来再用,但是不用担心下次push到服务器时,把不想提交的改动也push到服务器上,因为Stash Changes的内容不参与commit和push。操作步骤如下:1.当本地改动后,可以通过VCS–>Git,然后Stash Changes,就将本地的全部改动临时保存到本地仓
2020-12-08 11:51:40 611
原创 spring boot链接mongodb各种配置
第一种:配置文件:spring.data.mongodb.ysdm.database=databasespring.data.mongodb.ysdm.url=IP:portspring.data.mongodb.ysdm.password=passwordspring.data.mongodb.ysdm.username=usernamespring.data.mongodb.ysdm.authentication-database=admin抽象类:@Getter@Setterpu
2020-11-30 09:41:50 1143
原创 waterdrop大数据同步数据配置以及mongodb到导入数据
1、waterdrop由mongodb同步到clickhouse集群配置spark {spark.app.name = “Waterdrop0923”spark.executor.instances = 40spark.executor.cores = 2spark.executor.memory = “3g”}input{mongodb {readconfig.uri=“mongodb://root:root@ip:port/ONLINE?authSource=admin” #Mongo
2020-10-21 10:53:41 2107
原创 IDEA读取pom.xml出现认证错误解决方法
读取pom.xml出现Could not transfer artifact org.springframework.boot:spring-boot-starter-par的解决方法could not transfer artifact org.springframework.boot:spring-boot-starter-parent:pom:2.2.6.RELEASE from/to nexus-aliyun (https://maven.aliyun.com/nexus/content/grou
2020-09-07 11:39:20 1581
原创 spring boot引入lombok
安装插件:file–>settings–>Plugins–>搜索Lombok,下载引入依赖:<dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.16.10</version> </dependency>
2020-09-01 16:40:06 426
原创 https的post和get认证忽略
import javax.net.ssl.HostnameVerifier;import javax.net.ssl.SSLSession;import java.io.BufferedReader;import java.io.DataInputStream;import java.io.DataOutputStream;import java.io.File;import java.io.FileInputStream;import java.io.InputStream;import.
2020-08-10 17:07:03 251
原创 免密登录
ssh无密码访问cd /root/.ssh/ssh-keygen -t rsacat id_rsa.pub >> authorized_keys在各节点bai执行ssh-keygen -t rsassh-copy-id -i node1Node1执行chmod 600 authorized_keys将授权文件拷贝到节点:scp authorized_keys node2:/root/.ssh/node1是第一台du主机,可以提前编辑好hosts同步下去。zhi新加的机器只
2020-08-01 10:42:09 146
原创 监控程序是否在执行
#!/bin/bashsource HOME/.bashprofileint=1while[true];dopro=HOME/.bash_profileint=1while [ true ];do pro=HOME/.bashprofileint=1while[true];dopro=(ps -ef | grep java-1.0-SNAPSHOT.jar | grep -v grep)if [ -z “$pro” ]then echo “wancheng”echo “wanchen
2020-07-31 13:54:32 149
原创 hdfs跨集群传输数据
跨集群传输数据:(由nameservice2集群传入nameservice1集群)这里传输的时候目录要以/结尾,不行就在/添加*hadoop distcp -skipcrccheck hdfs://nameservice2/user/hive/warehouse/ods_yspay_trade.db/ods_orderbill/ hdfs://nameservice1/user/hive/warehouse/temp.db/orderbill_test/传入之后hive查询不到数据:如果添加正
2020-07-15 19:13:42 692
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人