- 博客(10)
- 问答 (1)
- 收藏
- 关注
原创 hive锁
hive lock报错 FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some time 解决办法:关闭并发,set hive.support.concurrency=false;hive锁介绍: hive存在两种锁,共享锁Shar
2017-10-25 17:36:05 4989
原创 distcp问题
1 报check-sum mismatch between source_path and target_path执行命令:hadoop distcp hdfs://xxxx:8020/mydata/hive/warehouse/db_ecar.db/bd_ads_flow_protrayal_total/ hdfs://yyyy:8020/user/hive/warehouse/d
2017-10-17 13:59:47 584
原创 Task运行过程分析笔记
Task运行过程概述基本数据结构和算法Map Task内部实现Reduce Task内部实现Map/Reduce Task优化
2017-10-17 08:30:55 280
原创 离线计算框架MapRedure
概述MapReduce客户端MRAppMaster工作流程MR作业生命周期及相关状态机资源申请与再分配Container启动与释放 ContainerLauncher负责与各个NM通信,以启动或释放Container。推测执行机制 省略作业恢复 省略数据
2017-10-17 08:14:08 641
原创 理论篇~第五章 事实表设计
1 事实表基础2 事务事实表3 周期快照事实表4 累积快照事实表5 三种事实表的比较6 无事实的事实表7 聚集型事实表
2017-10-08 23:50:10 1319 1
原创 理论篇~第四章 维度设计
1 维度设计基础 1.1 维度的基本概念 维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述称为“维度”,维度是用于分析事实所需要的多样环境。 维度使用主键标识其唯一性,主键也是确保与之相连的任何事实表之间存在引用完整性的基础。主键有代理键和自然键,它们都是用来表示某维度的具体值。但代理键是不具有业务含义的键,一般用于处理缓慢
2017-10-08 23:48:17 1631 2
原创 理论篇~第六章 元数据
1 元数据概述1.1 元数据定义阿里常见的技术元数据:1 分布式计算系统存储元数据,如MaxCompute表、列、分区等信息。记录了表的表名、分区信息、责任人信息、文件大小、表类型、生命周期,以及列的字段名、字段类型、字段备注、是否是分区字段等系统。2 分布式计算系统运行元数据,如MaxCompute上所有作业运行等信息;类似于Hive的Job日志,包括作业类型、实例名称、输入输出、SQL、运行参...
2017-10-08 23:18:30 837 1
原创 理论篇~第七章 数据质量
随着IT向DT时代的转变,数据重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极重要的角色。而对于日益重视的数据,如何保障其质量也是业界普遍关注的话题。1 数据质量保障原则2 数据质量方法概述 阿里的业务复杂,种类繁多的产品每天产生数以亿计的数据,每天的数据量在PB级以上,而数据消费端的应用又层出不穷,各类数据产品
2017-10-08 23:02:57 512
空空如也
sqoop export to mysql
2017-07-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人