- 博客(45)
- 收藏
- 关注
原创 记-从Doris大表整成csv文件到本地的过程
任务是需要同步服务器上的一张大表里面的数据整理成csv的方式到本地,表数据量1.7个亿。因为数据量和csv大小不成线性关系,更像指数递增,故切分为小文件来做。因为vpn连接公司内网不稳定,故使用公司服务器跑数。代码输出的结果为177个100万的csv文件。在本地电脑上打开termterxxx。然后就得到一个大的csv文件。
2023-11-03 09:11:22
388
原创 CDH集成Doris(基于非AVX平台)
这是借鉴大佬的文章原来的文章,shell有错误,并不能直接运行,这里使用小白的视角来运行编译一下。
2023-05-22 17:34:02
754
19
原创 从0搭建CDH,非root用户版本
更多选项 ----> http://192.168.124.120/cloudera-repos/cdh6/看了很多文章,觉得和实操还是有些出入,就手搭建了一次看看,也算做个备忘。hadoop hadoop[非root用户]提供 SSH 登录凭据。
2023-04-29 20:44:33
1449
1
原创 SQL刷题有感-持续
然后使用COUNT(DISTINCT b.user_id)计算当天有登录记录的用户数,使用COUNT(DISTINCT a.user_id)计算次日有登录记录的用户数。该SQL语句中,首先通过LEFT JOIN将当天和次日的登录记录进行关联,并筛选出当天和次日均有登录记录的用户。最后将次日有登录记录的用户数除以当天有登录记录的用户数并乘以100,得到次日留存率。问题一:求次日留存率。
2023-04-14 18:06:12
99
原创 Apacxx Atlxxx汉化
如ATLAS首页的SEARCH、CLASSIFICATION、GLOSSARY、Basic、Advanced 诸如此类的,整个Atlas页面的一级按钮标签或者二级按钮都是这样的,先把关键字标出。Atlas汉化需要更改dashboardv2、3里面的数据内容,它是一个图形化的界面,用于展示数据资源的元数据信息和数据治理的状态,见下图。以此类推,其中,button为按钮操作,需全部查出(V2、V3)并自行检查更改。如SEARCH替换为搜索,如下图(我这边已经更改完成)优点:汉化彻底,报错日志也可以汉化。
2023-04-11 18:37:13
625
原创 CDH6.3.2编译atlas-2.1
会报包缺失,info日志上面会给出包路径,网上下载一下放入maven路径里面就可以了。完整安装包,大小约3G。
2023-02-20 14:57:19
299
5
原创 Dlink安装注意点
1.Mysql的版本、鉴权、赋权mysql8安装参考Mysql安装Mysql GPG密钥过期问题2.plugins jar包的选择 – 重要参考上图其中flink-sql-connect 是连通包flink-table 是主包stax、woodstox是依赖的补充需要添加mysql-connect-java.jar Version= 8.0.313.conf文件更改下面展示一些 。配置开启后直接配置集群实例即可下面展示一些 。下面展示一些 。下面展示一些 。
2022-12-06 14:30:10
217
原创 fuser -km问题
然后xshell断开链接,集群报错,datanode启动不起来。执行了 fuser -km /home。1.启动节点的rpc服务。
2022-09-19 10:29:10
714
原创 Mysql实现ROWNUMBER与RANKNUMBER的代码实现
CREATE TABLE `players` ( `pid` int(20) NOT NULL AUTO_INCREMENT, `name` varchar(50) NOT NULL, `age` int(20) NOT NULL, PRIMARY KEY (`pid`)# UNIQUE KEY `name` (`name`)) ENGINE=InnoDB DEFAULT CHARSET=latin1;# drop table players;INSERT INTO `pl
2021-06-16 10:08:35
429
1
原创 spark写入到mysql(C3p0连接池方式)
emmm总共四个文件MysqlPool文件 获取连接数mysqlutils文件 处理连接池逻辑propertyutils文件 获取mysql配载文件信息mysql-user.properties 供propertils获取连接信息Mysql-user.propertiesmysql.pool.jdbc.url=xxxmysql.pool.jdbc.userName=xxxmysql.pool.jdbc.passWord=xxxmysql.pool.jdbc.driv
2021-05-08 16:02:43
540
1
原创 分区表写入分区
set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table fts_test.ads_efficiency_whole_aging_hv_i partition(opt_mon,opt_day,opt_hour) select * from fts_pro.ads_efficiency_whole_aging_hv_i where opt_mon='202104' and opt_day>='2021041
2021-04-23 15:07:29
169
原创 maven手动导包
产生场景:maven手动导包出现在项目所用jar包版本过低,maven云端无此版本的依赖场景解决案例:mvn install:install-file -Dmaven.repo.local=D:\software\maven\DB_group -DgroupId=org.apache.kudu -DartifactId=kudu-spark_2.10 -Dversion=1.6.0-cdh5.14.99 -Dpackaging=jar -Dfile=D:\software\maven\kudu-spar
2020-11-02 14:30:32
213
原创 java根据excel表格生成切片表模板文件
上图就是开发需求,直接上代码package tst;import org.apache.poi.xssf.usermodel.XSSFRow;import org.apache.poi.xssf.usermodel.XSSFSheet;import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.
2020-09-16 17:25:50
310
原创 hive udf 中 实现周岁算法,并对入参日期做判定
package com.ebscn.cdh.udfs;import org.apache.arrow.flatbuf.Int;import org.apache.hadoop.hive.ql.exec.UDF;import sun.rmi.runtime.Log;import java.io.*;import java.math.RoundingMode;import java.text.DecimalFormat;import java.text.NumberFormat;import
2020-09-05 18:53:03
291
原创 Map集合三种输出方式
import java.util.*;public class test { public static void main(String[] args) { HashMap<Integer,String> hashMap=new HashMap<>(); hashMap.put(10,"a"); hashMap.put(5,"c"); hashMap.put(18,"b"); //三种遍历
2020-07-23 09:23:12
2548
原创 JAVA操作excel生成Hive表
package Excel_Deal;import org.apache.poi.xssf.usermodel.XSSFRow;import org.apache.poi.xssf.usermodel.XSSFSheet;import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.FileInputStream;import java.io.IOException;import java.util.ArrayList;
2020-07-14 15:11:25
361
原创 操作excel生成oracle数据库
package Excel_Deal;import org.apache.poi.xssf.usermodel.XSSFRow;import org.apache.poi.xssf.usermodel.XSSFSheet;import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.FileInputStream;import java.io.IOException;import java.util.ArrayList;i
2020-07-13 20:34:08
325
原创 Spark 知识点
Spark小文件处理1.通过Spark中的repartition()方法进行从分区。2.降低spark的并行度,减少文件数量。3. 新增一个并行化任务,以 group by 文件的形式合并小文件spark接收kafka的两种方式区别Receive的方式(通过zk连接kafka队列获取数据)保证数据高可用的情况下,要开启预写日志,才能保证数据0丢失。Direct的方式(直接到kafka节点上取数据)这种方式会周期性的查询Kafka,来获得topic+partition的最新offset,优
2020-06-22 15:18:14
219
转载 转载来的文章
一、修改IP地址前需要准备的工作1、虚拟机需要使用NAT的网络模式虚拟机关机状态下,点击"编辑虚拟机设置",点击"网络适配器",选择"NAT模式"二、虚拟机NAT模式网络设置1、选中需要设置网络的虚拟机,然后分别点击“编辑”——“虚拟网络编辑器”打开虚拟网络编辑器窗口,点击“更改设置”说明: 1、选择VMnet8网卡,NAT模式; 2、选择NAT模式; 3、取消勾选使用本地DHCP服务将IP地址分配给虚拟机。若勾选,则每次开机,地址是动态的,会变的,故取消勾选。IP地址,后面通过
2020-06-12 10:06:04
175
原创 Kafka知识瞎编搞起来
为什么需要消息队列在高并发的应用场景中,由于来不及同步处理请求,接收到的请求往往会发生阻塞,例如高并发的数据库应用场景,就会有大量的插入,更新请求同时到达数据库,这会导致行或者表被锁住,最后会因为请求堆积过多触发 “连接数过多的异常”错误。什么是消息队列从字面上来看,是一个队列,拥有先进先出的特性,用于不同进程间的通信,详细队列采用异步通信机制,即,生产者消费者无需同时与消息队列进行数据交互,消息会一直在队列中,直到被接收者读取。消息队列主要有哪些作用应用解耦:多个应用可通过消息队列对相同的消息进
2020-06-10 16:18:30
345
原创 java基础拾遗
1.JVM的作用。jvm是运行java字节码的虚拟机,目的是将字节码根据不同的平台序列化为每个平台对应的机器码。2.jvm序列化的知识jvm序列化的实体是一个对象,结果也是个对象,在实际使用对象序列化的时候,有两种场景第一个场景是将对象序列化到 持久化形式的存储当中(本地硬盘),我们需要的时候,可以采用反序列化的形式将保存的文件生成对象。第二种场景是在网络传输过程中,对象在不同主机之间的传播,序列化会将对象转成码流由接收方进行解析...
2020-06-07 12:10:26
219
原创 Spark Sql
RDD,DataFrame,DataSet 三者联系首先在spark2.0版本中,已经移除了DataFrame,成为了DataSet的一个约定例如 DataFrame=DataSet【ROW】三者的区别:RDD 就像 一个类名调用一样,就像people类,user类,可以清楚每个元素的元素类型 ,不清楚元素内部的具体属性信息DataFrame 每个元素都是ROW类型,可以清楚元素内部的属性信息,但是不清楚每个属性是属于什么类型,例如String,Int类型,在需要泛型的时候有用。DataSet
2020-06-01 18:46:30
189
1
原创 HIVE数据倾斜
数据倾斜的定义由于各种原因造成数据分布不均匀,造成数据大量集中在一点,造成数据热点。数据倾斜产生的现象执行任务的时候,任务进度卡在99%,打开监控查看,只有一个或N个reduce任务处于运行未完成的状态。 这是因为处理的数据数量相比较其他reduce节点数据要大单一reduce处理数据量比平均reduce处理的数据量要大,通常是3倍甚至更多。处理时间也大于平均时长。数据倾斜的情况数据倾斜的原因Key 分布不均匀业务本身对某些维度需求较集中建表的时候未考虑周到某些SQL语句执行
2020-05-29 15:45:12
338
原创 UDF校验身份证号
身份证号分为15位,18位的,这里写成两个UDF,写一个UDF大佬也不乐意,判定规则为18位长度是否满足18位身份证号中是否包含乱码末尾校验码是否正确前两位是否为省份编号日期格式是否正常15位身份证校验(缺少两位年数据,和一位校验码数据)1.是否都为数字2.日期加19是否满足日期格式3.省份是否正常4,数据是否含有乱码5,长度是否符合/*18位身份证号校验 */package com.shnqin.udf.dev;import java.util.regex.Pa
2020-05-28 11:37:49
986
原创 HIVE UDF编写之两个时间之内的工作日天数,自动去除节假日和添加调休日
因为提交UDF的时候,阿里云的MAXcompelet 不支持加载resource下的文件,故将节假日日期写入到list集合里面,这个UDF 产出的形式是UDF_name(Start_time,End_time) 返回 工作日天数入参日期格式为 : yyyy-MM-dd首先编写日期遍历utils 工具类package com.shnqin.udf.dev.util;import java.text.DateFormat;import java.text.ParseException;imp
2020-05-28 11:27:41
3084
4
dlink集成phoenix的包-dlink-connector-pho/Users/soenix-1.14-0.6.7.jar
2022-11-24
哈喽,可以帮我看下这个问题吗?
2022-09-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人