- 博客(3)
- 收藏
- 关注
原创 什么是EC, EC与多副本的对比分析
而在分布式存储系统中,HDFS(Hadoop Distributed File System)为了保证数据的可靠性默认数据存储策略是3副本,即在写入数据的时候,会占用该数据大小3倍的空间,这样就造成了大量的空间浪费。如果把n+m份数据分布在存储系统的不同节点上,那么任意小于等于m个节点故障(m份数据失效),都可以通过其他剩余的数据还原出原始数据,从而达到不影响业务的目的。在可用容量上,EC的优势是较大的,比如4+2纠删码的利用率是66%,但3副本只有33%,两者差了2倍,8+2纠删码更可以做到80%!
2022-12-15 09:40:50
10832
2
原创 删除外部表、删除表中部分分区及HDFS文件、数仓模型生命周期管理、HDFS存储资源管理
如果要删除干净外部表(正常删外部表是只删除表结构,元数据与hdfs文件不会删除)要先把外部表转换为内部表hive -> ALTERTABLE app.app_th_report_share_cvr_di SET TBLPROPERTIES('EXTERNAL'='False');hive -> droptable app.app_th_report_share_cvr_di; --这样删表后hdfs文件也会删除。删分区也一样,转成内部表再删分区会顺带删除hdfs文件h...
2021-02-23 11:04:25
4031
原创 map类型字段 提取字符
col[string]例:数据:SQL:select ext_columns['ref_cls'] from gdm.gdm_m14_th_wireless_online_log where dt=sysdate(-1) limit 1结果:
2019-06-14 10:30:17
4736
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人