![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
xiaoqixiaodong
这个作者很懒,什么都没留下…
展开
-
【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制?
1、果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。 2、原理与分析过程 看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。 ...转载 2019-03-19 17:32:36 · 438 阅读 · 0 评论 -
hive优化(1)
1 sql书写规范 尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区。 案例: SELECT a.key,col1,col2,col3,col4 FROM A a LEFT OUTER JOIN B b ON a.key = b.key and a.dt=‘20150101’ and b.dt=‘20150101';转载 2017-12-29 18:45:57 · 297 阅读 · 0 评论 -
数据仓库的模型设计
数据仓库的模型设计 A. 数据建模方法论 数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。 模型设计分为三个阶段: 1,概念模型 对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。 一般划分为8个主题域: 客户、服务、服务使用、账务、结算、资源、客服、营销 为什么要划分主题域? 划分主题域,是根据业务的应用和需要来划分的转载 2016-07-27 16:10:33 · 638 阅读 · 0 评论