![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
xiaoqixiaodong
这个作者很懒,什么都没留下…
展开
-
【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制?
1、果断先上结论1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。2、原理与分析过程看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。...转载 2019-03-19 17:32:36 · 445 阅读 · 0 评论 -
hive优化(1)
1 sql书写规范尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区。案例:SELECT a.key,col1,col2,col3,col4FROM A a LEFT OUTER JOIN B b ON a.key = b.key and a.dt=‘20150101’ and b.dt=‘20150101';转载 2017-12-29 18:45:57 · 298 阅读 · 0 评论 -
数据仓库的模型设计
数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段:1,概念模型对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。一般划分为8个主题域:客户、服务、服务使用、账务、结算、资源、客服、营销为什么要划分主题域?划分主题域,是根据业务的应用和需要来划分的转载 2016-07-27 16:10:33 · 641 阅读 · 0 评论