- 博客(9)
- 收藏
- 关注
原创 excel根据列值拆分表格
MsgBox "拆分完成" & vbCrLf & vbCrLf & "共用时: " & Format(Timer - t, "0.0 秒"), vbOKOnly + vbInformation, "提示"byWhichColumn = Application.InputBox("请输入要拆分的列号:", "拆分表格", 2, Type:=1)'获取用户指定的拆分依据列号, 输入 1 表示按工作表的第 1 列拆分, 以此类推。'作用:根据当前工作表的某列,把全表的数据拆分到多个工作表中分别存储。
2024-10-30 16:12:40
887
原创 Spark 作业的 commit 提交机制 - Spark并发更新ORC表失败的问题原因与解决方法
该问题的原因是spark不支持对同一张ORC/PARQUET非分区表或ORC/PARQUET分区表的同一个分区的并发更新,甚至也不支持以静态分区模式并发更新 ORC/PARQUET分区表的不同分区,其底层细节跟 spark作业两阶段提交机制的实现算法有关,详情见后文。
2024-07-16 15:19:44
1178
原创 Hive修改外部表分区名并且重命HDFS目录名字查询不到数据
因此为了让我们修改后的分区可以正确的加载数据,我们去删除掉原来的分区dt=‘2020-03-31,新建一个dt=‘2020-03-31,并且上一步的时候,我们已经将HDFS目录的dt=‘2020-04-01’修改为dt=‘2020-03-31’。但是这个软连接hive的dt=‘2020-03-31’与HDFS的dt=‘2020-04-01’已经失效,找不到的dt=‘2020-04-01’。Hive创建的一张外部表 table_1, 有一个按照天增量存储的分区,dt=‘2020-04-01’
2024-03-07 12:57:36
528
原创 hive parquet 修改字段名 列原数据变NULL
alter table parquet_tb change column column_name_old column_name_new string comment '测试字段' cascade;1.在Hive的当前会话设置parquet.column.index.access=true属性(临时)Parquet格式的表,在重命名表的列名后,查询重名的列数据时显示当前列所有值为NULL。hive默认的读取parquet文件是按照名称读取的(orc默认是按序列号读取的),
2024-03-07 12:12:31
845
原创 spark参数调优
起初直接insert分区表,当3部分一起跑,会报重命名失败错误。改成insert结果集,又报 ERROR TransportResponseHandler: Still have 1 requests outstanding when connection from /10.26.126.187:48416 is closed 错误。当Hive数据量很大,需要大量groupby时,资源会不够用。单跑整体需要很长时间,所以把能拆开的分部分来跑。查资料发现是系统资源不够用。
2024-03-04 12:14:00
558
1
原创 数据仓库、数据集市、数据湖、数据中台这些概念
原来各个数据孤岛中的数据,可能会在物理位置(比如沃尔玛在各个州可能都有自己的数据中心)、存储格式(比如月份是数值类型,但但天气可能是字符类型)、商业平台(不同数据库可能用的是Oracle数据库,有的是微软SQL Server数据库)、编写的语言(Java或者Scale等)等等各个方面完全不同,数据仓库要做的工作就是将他们按照所需要的格式提取出来,再进行必要的转换(统一数据格式)、清洗(去掉无效或者不需要的数据)等,最后装载进数据仓库。数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务。
2023-12-07 14:12:10
2804
原创 详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS
还是不太明白 ods 和 dwd 层的区别,有了 ods 层后感觉 dwd 没有什么用了。
2023-12-07 10:59:29
8628
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人