自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Spark 作业的 commit 提交机制 - Spark并发更新ORC表失败的问题原因与解决方法

该问题的原因是spark不支持对同一张ORC/PARQUET非分区表或ORC/PARQUET分区表的同一个分区的并发更新,甚至也不支持以静态分区模式并发更新 ORC/PARQUET分区表的不同分区,其底层细节跟 spark作业两阶段提交机制的实现算法有关,详情见后文。

2024-07-16 15:19:44 873

原创 Hive 数字类型慎用distinct

distinct 后变成 1, 100。且是随机的,有的是正常,有的就这样。

2024-04-10 14:47:16 166 1

原创 spark插入数据丢失bug

spark插入普通表数据 用了 in (重复ID)会导致丢失ID,必须加上distinct才不会丢失。

2024-03-11 17:25:53 363 1

原创 Hive修改外部表分区名并且重命HDFS目录名字查询不到数据

因此为了让我们修改后的分区可以正确的加载数据,我们去删除掉原来的分区dt=‘2020-03-31,新建一个dt=‘2020-03-31,并且上一步的时候,我们已经将HDFS目录的dt=‘2020-04-01’修改为dt=‘2020-03-31’。但是这个软连接hive的dt=‘2020-03-31’与HDFS的dt=‘2020-04-01’已经失效,找不到的dt=‘2020-04-01’。Hive创建的一张外部表 table_1, 有一个按照天增量存储的分区,dt=‘2020-04-01’

2024-03-07 12:57:36 448

原创 hive parquet 修改字段名 列原数据变NULL

alter table parquet_tb change column column_name_old column_name_new string comment '测试字段' cascade;1.在Hive的当前会话设置parquet.column.index.access=true属性(临时)Parquet格式的表,在重命名表的列名后,查询重名的列数据时显示当前列所有值为NULL。hive默认的读取parquet文件是按照名称读取的(orc默认是按序列号读取的),

2024-03-07 12:12:31 618

原创 spark参数调优

起初直接insert分区表,当3部分一起跑,会报重命名失败错误。改成insert结果集,又报 ERROR TransportResponseHandler: Still have 1 requests outstanding when connection from /10.26.126.187:48416 is closed 错误。当Hive数据量很大,需要大量groupby时,资源会不够用。单跑整体需要很长时间,所以把能拆开的分部分来跑。查资料发现是系统资源不够用。

2024-03-04 12:14:00 423 1

原创 数据仓库、数据集市、数据湖、数据中台这些概念

原来各个数据孤岛中的数据,可能会在物理位置(比如沃尔玛在各个州可能都有自己的数据中心)、存储格式(比如月份是数值类型,但但天气可能是字符类型)、商业平台(不同数据库可能用的是Oracle数据库,有的是微软SQL Server数据库)、编写的语言(Java或者Scale等)等等各个方面完全不同,数据仓库要做的工作就是将他们按照所需要的格式提取出来,再进行必要的转换(统一数据格式)、清洗(去掉无效或者不需要的数据)等,最后装载进数据仓库。数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务。

2023-12-07 14:12:10 2575

原创 详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

还是不太明白 ods 和 dwd 层的区别,有了 ods 层后感觉 dwd 没有什么用了。

2023-12-07 10:59:29 7992 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除