zahuali-CSDN博客

转载 shell 获取类时间

https://blog.csdn.net/weixin_42410172/article/details/88040885

2021-10-27 14:37:26 184

原创 hive获取数据中位数函数

当数据为小数时percentile_approx（字段名，0.5）当数据为整数时percentile（字段名，0.5）

2021-05-20 17:13:56 3458

直接上sql:select aa.dates,substr(dates,0,4) as years,substr(dates,0,7) as months,bb.weekss as weeks from (select dates, concat(substr(dates,0,4),date_format(date_sub(dates, 5), '%w')) as weeks from tmp.datess) aaleft join (select b.weeks,concat(min

2021-04-28 18:01:12 1853 2

原创 mysql数据同步到clickhouse

使用一下sql命令同步CREATE TABLE 表名 ENGINE = MergeTree ORDER BY 字段 AS SELECT * FROM mysql('主机ip:3306','库','表','用户名','密码');

2021-04-13 17:19:49 767

原创 clickhouse优化实践

https://www.jianshu.com/p/a72a4782a102供参考

2021-04-13 15:52:14 128

原创 clickhouse单机版简易安装

clickhouse 安装：第一步：添加 yum 源curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh | sudo bash第二步：yum 安装yum install -y clickhouse-server clickhouse-client第三步：服务启动/etc/init.d/clickhouse-server start默认数据存放位置是： /var/lib

2021-04-08 17:12:40 180

原创 shell脚本调用另一shell脚本的变量作为参数

目的：脚本2.sh 调用 1.sh的变量作为参数创建脚本 1.shtouch 1.shchmod 577 1.sh （给脚本赋予执行权限）#!/bin/bashmasterip="10.30.6.56"创建脚本 2.shtouch 2.shchmod 577 2.sh （给脚本赋予执行权限）#!/bin/bash. ./1.shecho ${masterip}亲测有效...

2021-03-08 17:48:30 946 1

原创两集群拷贝 hdfs数据

将 a集群的数据拷贝到b集群hadoop distcp hdfs://10.30.7.8:8020/master/basis_report_data/ hdfs://10.30.7.2/hive_log/一些常用参数补充标识及描述备注-p[rbugp]修改次数不会被保留。并且当指定 -update 时，更新的状态不会被同步，除非文件大小不同（比如文件被重新创建）。-i 忽略失败就像在附录中提到的，这个选项会比默认情况提供关于拷贝的更精确的统计，同时

2021-02-24 15:13:20 255

原创 hive 内外部表加载hdfs数据位置情况

hive 表加载hdfs数据情况1：创建内部表create table if not exists tmp.testa (merchant_id string) stored as parquet;加载前hdfs数据导入数据LOAD DATA INPATH ‘/hive_log/basis_report_data/2021-02-01’ INTO TABLE tmp.testa总结：创建内部表 load 数据 hdfs数据会进行迁移迁移位置到了 hive表目录/user/hi

2021-02-23 11:37:26 965

原创 hive数据同步到es

首先配置hive 到es 环境所需要的jar包hive 到es实例DROP TABLE IF EXISTS dim_use_year_es ;CREATE EXTERNAL TABLE dim_use_year_es( dataloadday string, use_year_code string, use_year_name string, dim_order double, lower_limit_value int, upper_limit_value int)ST

2020-06-24 15:53:01 691

原创测试hadoop集群的读写能力

本人安装的是cdh本次实验是执行 10个文件每个文件是128mb 拿三台测试集群进行测试执行如下写能力测试hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-client-jobclient-3.0.0-cdh6.1.0-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB得到的结果20/05/26 16:22:23 INFO fs.TestDFSIO: -----

2020-05-26 16:41:44 265

原创 hive 创建日期的udf函数（获取昨天今天明天）

创建udf函数的全流程pom文件<name>g6-hadoop</name> <properties> <maven.compiler.source>1.7</maven.compiler.source> <maven.compiler.target>1.7</maven.compiler.target> <project.build.sourceEncodi

2020-05-15 15:49:08 439

原创 spark Java 取样算子（sample，takesample）

sample 和takesample 区别sample 参数中获取的是数据的比例takesample 参数中获取的是取样的个数代码ArrayList<Integer> list1 = new ArrayList<Integer>(); list1.add(1); list1.add(2); list1.add(3); list1.add(4); list1.add(3); lis

2020-05-14 14:09:26 476

原创 spark Java 数据合并的算子（union ，intersection subtract cartesian ）

spark中的常用算子以图中为例以下以代码展示distinct 算子去重ArrayList<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); list.add(4); list.add(3); JavaRDD<Integer> paralleliz

2020-05-14 11:38:46 901

原创 spark Java filter算子的使用

filter 起到过滤的作用直接上代码ArrayList<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); list.add(4); list.add(3); JavaRDD<Integer> parallelize = sc.parallelize(list

2020-05-13 17:37:19 1020

原创 spark Java flatmap算子的使用

将函数应用于 RDD 中的每个元素，将返回的迭代器的所有内容构成新的 RDD。通常用来切分单词flatmap 输入是一输出是多直接上代码输入是文件文件内容是flume sd hadoop hbase kylin hdfs hadoop sd sd flume hdfsString logFile = "D:\\ab.txt";SparkConf conf = new SparkConf().setMaster("local").setAppName("TestSpark");JavaSpa

2020-05-13 17:23:16 899

原创 spark Java map算子和maptopair算子的使用

map算子会出现一对一的结果将函数应用于 RDD 中的每个元素，将返回值构成新的 RDD直接上到代码ArrayList<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); list.add(4); list.add(3); JavaRDD<Integer> p

2020-05-13 16:55:45 1845

原创 spark Java aggregate算子的使用

aggregate 是一个聚合算子可以用来求和求平均数据等//多个分区 ArrayList<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); list.add(4); JavaRDD<Integer> parallelize = sc.parallelize(list,2

2020-05-13 11:15:36 652

原创 spark wordcount及常用算子

1 Javawordcount 直接上代码public class Testwordcount { private static final Pattern SPACE = Pattern.compile(" ");//定义分割的类型 public static void main(String[] args) { String logFile = "D:\\ab.txt"; SparkConf conf = new SparkConf().setMast

2020-05-12 11:06:49 235

原创 shell基本知识

在linux下使用shell编程常常能够极大简化我们的工作。而下面这些必备的知识你是否都掌握了呢？入参和默认变量对于shell脚本而言，有些内容是专门用于处理参数的，它们都有特定的含义，例如：/home/shouwang/test.sh para1 para2 para3$0 $1 $2 $3其中$0代表了执行的脚本名，$1，$2分...

2020-05-07 17:33:51 250

原创 Centos7 安装 es6 单机版

1解压Tar -zxvf es文件名2 创建独立用户与组（root用户下创建设定）groupadd elagroup #创建用户组elagroupuseradd -g elagroup elauser #创建用户elauser并将其添加到elagroup组中passwd elauser #为elauser设置密码设置的密码是 elasticsearch3...

2020-03-06 16:57:23 709

原创 springboot前后端分离跨域问题

介绍一种使用实现CORS的方法直接上代码@Configurationpublic class CorsConfig { private CorsConfiguration buildConfig() { CorsConfiguration corsConfiguration = new CorsConfiguration(); // 1 设置访问源...

2020-01-13 15:53:51 239

原创 git 上传分支错误解决

当git push 报错时 git上已经有代码error: src refspec liuyutao does not match any.error: failed to push some refs to ‘https://git.code.tencent.com/WeTax-Bigdata/java-BigReport.git’切换分支之后提交代码即可git checkou...

2020-01-13 11:03:04 549

原创 mysql 数据实时到 hdfs和kafka

1.在mysql创建表导入数据use test;create table wlslog(id int not null,time_stamp varchar(40),category varchar(40),type varchar(40),servername varchar(40),code varchar(40),msg ...

2019-11-28 18:07:01 450

原创 hive数据导入到pgsql分隔符问题

例子如下${sqoop_cmd} export --connect jdbc:postgresql://xxxxx:5432/new1013db --username postgres --password postgres --table dw_age_distribute --export-dir /user/hive/warehouse/dw.db/dw_age_distribute --...

2019-11-05 19:51:59 1051

原创 pgsql数据替换替换换行符

替换掉换行符REPLACE(字段名, CHR(10), ‘’)替换掉回车符REPLACE(字段名, CHR(13), ‘’)

2019-10-29 14:48:52 3309

原创 pgsql数据导入hive 字段大小写问题

本身 pgsql数据进行查询的时候当查询字段没有加双引号本身会默认成小写加上双引号才才会区分大小写所以建议所有查询都加上双引号否则碰到大写的字段将会无法识别编写的sqoop脚本实例如下在字段上加上"字段名" 进行转译...

2019-10-25 16:02:39 681

原创 sqoop将pgsql导入数据hive问题（ERROR orm.ClassWriter: Cannot resolve SQL type 1111）

解决sqoop pgsql数据导入到hive中 uuid无法转化的问题错入如下解决1：如果有有精力和时间的话，可以去sqoop的jar中中找到ClassWriter类，然后去添加上uuid类型转化成hive中的字段，在此不介绍这种方法解决2：在sqoop中的命令中的sql查询进行数据类型转化函数 cast（）如下将uuid类型提前转换成varchar类型在hive中对应出strin...

2019-10-25 15:54:15 1760

原创 CDH6.1 hdfs没有写入的权限

报错信息在CDH中将对勾去掉即将该参数dfs.permissions 的true改成false不行的话就去执行hadoop fs -chmod 777 /user/hadoop

2019-10-09 18:03:48 599

原创 centos7源码安装postgresql10.4

1 文件进行解压压缩包在 /root/srcCd /root/tools/pgsqltar -zxvf /root/src/postgresql-10.4.tar.gz2将解压后的源码进行编译./configure --prefix=/usr/local/pgsql --without-readline （该步骤查看是否有错误，缺少什么yum install 什么）MakeMake ...

2019-09-25 15:47:07 542

原创 mysql5.7源码安装

1、下载tar包，这里使用wget从官网下载wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz2、将mysql安装到/usr/local/mysql下解压tar -xvf mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz...

2019-09-25 15:42:27 112

原创 Java 读取文件字符串和本身设置的字符串长度不相等

用java读取文件中的值并做比较，发现竟然不一样！！这让我当时百思不得其解，还以为是IDEA出现了问题呢话不多说看代码import java.io.*;import java.util.ArrayList;import java.util.HashMap;import java.util.Iterator;import java.util.Map;public class Matc...

2019-09-02 10:22:22 730

原创 PostgreSQL常用sql

1 --查看数据库select * from pg_database;2 --查看表空间select * from pg_tablespace;3 --查看会话进程select * from pg_stat_activity;4 --查看某个数据库下的所有表select * from pg_tables where schemaname = ‘库名’;5 --查看表的结构只查看...

2019-08-02 14:38:58 158

原创 MapReduce整个流程的理解

1客户端（切片清单）job 要做五件事最重要的是第二件2map输入数据利用lineRecordRedurer 方法做行读取器一个切片的的信息：file：来自的文件start：偏移量length：大小hosts：位置信息1 map输入对hdfs拿一个输入流 seek（）方法到自己map的偏移量位置这样就不会读到其他map2 调整切片的偏移量向下边...

2019-07-24 15:30:46 215

原创初识kafka

1kafka架构生产者消费者broker ：中间包含一个或者多个 topic一个topic中有一个或者多个partition这个可以设置每一条消息只能来自一个topic生产数据和消费数据的时候必须要指定是哪一个topic*partition 讲解如果不备份的情况下只分布在一个broker上一个partition中包含了多个segment，一个segment对应一个文件，数...

2019-07-11 17:50:37 132

原创 hive优化

1hive整体架构的优化（1）根据日期进行分区进行动态分区参数：hive.exec.dynamic.partition=ture（2）为了减少数据磁盘的存储及i/o的次数将数据进行压缩：各种压缩进行对比textfile：160M（1）hive数据表的默认格式，存储方式：行存储。（2）可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持splitSequenceFil...

2019-07-09 18:27:13 163

原创 hive数据格式

1 textfile行式存储数据不进行压缩网络开销比较大·2 sequencefile 二进制文件二进制文件，它将数据(key,value)的形式序列化到文件里·3 ORC file1. ORC是列式存储，有多种文件压缩方式，并且有着很高的压缩比。2. 文件是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅节省HDFS存储资源，查询任务的输入数据量减...

2019-07-08 17:56:12 400

原创 jvm垃圾回收GC算法

1引用计数算法当有地方引用这个对象的时候，引用计数器的值+1，当引用失效的时候，计数器的值-1很难解决对象之间相互循环引用的问题2可达性分析算法从根（GC Roots）的对象作为起始点，开始向下搜索，搜索所走过的路径称为“引用链”，当一个对象到GC Roots没有任何引用链相连（用图论的概念来讲，就是从GC Roots到这个对象不可达）时，则证明此对象是不可用的。一般引用计数和可达性分析...

2019-07-08 17:53:36 153

原创将hive中的数据映射到HBase

HBase 数据的插入可以使用Java API 来写Java 程序逐条倒入，但是不是很方便。利用Hive自带的一个Jar包，可以建立Hive和HBase的映射关系利用Hive 的insert可以将批量数据导入到HBase中，还可以通过 Hql 语句进行查询。具体的配置方法如下：1、把hive-hbase-handler-0.9.0-cdh4.1.2.jar （CDH5 默认在 /usr/l...

2019-07-01 12:21:38 999

springboot对接postgresql框架开发

空空如也