数据仓库
文章平均质量分 87
架构师老狼
资深架构师,专注于区块链、微服务、大数据研究!坚定信念,乐观心态,永不止步!
展开
-
元数据管理理论
1 为什么需要数据治理?通过数据治理实现企业数据的标准化、提高数据质量、提升业务处理的效率,为数据分析提供准确的数据支撑,赋能业务,助力企业实现数字化转型。2 数据治理的本质数据要产生价值,需要一个合理的“业务目标”,数据治理的所有活动应该围绕真实的业务目标而开展,建立数据标准、提升数据质量只是手段,而不是目标。因此数据治理的第一步不是分析数据问题,而是分析业务问题,找到企业的核心业务诉求,定义数据治理的目标和范围。3 数据治理架构在DAMA 数据管理知识体系指南中,数据治理位于数据原创 2021-10-22 11:45:06 · 857 阅读 · 0 评论 -
hive3.x on spark3.0生产调优实践
1 数据倾斜绝大部分任务都很快完成,只有一个或者少数几个任务执行的很慢甚至最终执行失败,这样的现象为数据倾斜现象。将数据倾斜分为单表携带了 GroupBy 字段的查询和两表(或者多表)Join 的查询。1.1 单表数据倾斜优化1.1.1 Map 端进行聚合 - GroupBy 操作同时聚合函数为 count 或者 sumset hive.map.aggr = true;set hive.groupby.mapaggr.checkinterval = 100000;set hive.grou原创 2021-09-16 20:18:39 · 1153 阅读 · 2 评论