自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 spark报错解决

"JCE cannot authenticate the provider BC" 这个错误通常意味着Java环境在尝试使用Bouncy Castle提供的加密算法时,无法验证该提供者的身份。Java Cryptography Extension (JCE)和Bouncy Castle (BC)提供者认证相关的问题。

2023-11-09 10:15:05 761 1

原创 大数据代码快速测试

在空白处将代码中需要的包引进来,再将需要测试的代码粘贴进来。window按Ctrl + D 开始执行。mac按control + D开始执行。执行spark-shell。连接大数据集群一台服务器。

2023-11-08 15:03:58 57 1

原创 hive-sql执行时参数调优:

--设置使用spark引擎set hive.execution.engine=spark;set spark.master=yarn-cluster;set spark.executor.cores=4--设置shuffle的分区数set spark.sql.shuffle.partitions = 1500 --设置shuffle的并行度set spark.executor.memory=10g; --设置堆内内存set spark.yarn.executor.memoryOverhe

2023-11-08 14:47:23 95 1

原创 spark优化

2023-11-08 14:44:25 54 1

原创 hive表操作

内部表被drop后,表的data和metadata都会被删除;外部表被drop后,表的metadata会被删除,但是data不会被删除。如果不小心删掉外部表,重新建表location到数据存放在HDFS的相应路径即可。1、外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。(‘EXTERNAL’=‘TRUE’)和(‘EXTERNAL’=‘FALSE’)为固定写法,区分大小写!

2023-11-08 14:42:16 38 1

原创 后台运行脚本

【代码】后台运行脚本。

2023-11-08 14:38:45 52 1

原创 Linux定时任务Crontab命令详解

星号(*):代表所有可能的值,例如month字段如果是星号,则表示在满足其它字段的制约条件后每月都执行该命令操作。中杠(-):可以用整数之间的中杠表示一个整数范围,例如“2-6”表示“2,3,4,5,6”逗号(,):可以用逗号隔开的值指定一个列表范围,例如,“1,2,5,7,8,9”week:表示星期几,可以是从0到7之间的任何整数,这里的0或7代表星期日。command:要执行的命令,可以是系统命令,也可以是自己编写的脚本文件。hour:表示小时,可以是从0到23之间的任何整数。

2023-11-08 14:27:05 50 1

原创 impala/hive自定义函数

大数据机器执行:hdfs dfs -put /opt/cloudera/parcels/CDH-6.2.1-1.cdh6.2.1.p0.1425774/lib/hive/lib/hive-exec.jar /user/wj/jar/hive-exec.jar。删除自定义函数:drop function function_name;大数据机器执行:find / -name hive-exec.jar。impala核验:select md5('xxxxxx');注意:java自定义函数类须继承UDF,

2023-11-08 10:53:24 228 1

原创 clickhouse

因为实时写入clickhouse中的数据,相同的一条数据可能会保存多份,而且click house自身的mergetree只会在集群资源充裕时随机触发,一般间隔时间较长。所以从clickhouse抽取数据前要 强制进行mergetree。clickhouse数据合并mergetree需要一定的时间,所以需要让线程睡眠一段时间,等待click house数据合并mergetree完成。clickhouse -client -m 可以换行,以;clickhouse -client 不可换行,回车即执行。

2023-11-08 10:33:53 95 1

原创 导数据步骤

split 文件名 -l 1000 -d -a 3 前缀_ && ls | grep 前缀_ | xargs -n1 -i{} mv {} {}.csv。字符串内容特殊符号替换 regexp_replace(content, '\\n|\\t|\\r', '')切分大文件命令,在堡垒机中执行:split -b 50M gjmx20200807.csv。模糊查询多个字符串 : rlike '.*(优惠|你好|再见).*'-b指定大小,每个文件100M.,这种担心会破坏一行的完整性。-- 数据修改文件后缀名。

2023-11-08 10:29:02 58 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除