hadoop
Catherine_In_Data
这个作者很懒,什么都没留下…
展开
-
1. MapReduce初步了解
1. hadoop生态系统 2. YARN 1)YARN 一个集群部署多个框架。公共资源调度管家。 主流框架,支持主流YARN. 负载混搭,共享底层存储。 3. Mapreduce 执行流程 由图我们可以看到, MapReduce存在以下4个独立的实体。 JobClient:运行于client node,负责将MapReduce程序打成Jar包存储到HDFS,并把Jar包的路径提交到Jobt...原创 2020-03-25 20:37:21 · 123 阅读 · 0 评论 -
hive编程笔记---多表关联使用感想
背景:hadoop平台上通过hive整理模型预测数据,需要将多个表(行为表,大概20+张,以下简称“子表”)与注册信息表(简称“主表”)进行关联,需要每天凌晨5点前输出预测数据。关联不同方式可能影响最终建模数据表生成时间。整理过程中,主要经过了如下步骤。感想: 使用left outer join 进行关联时,left的表越多,则运算需要的时间越多。所以尽可能将需要left的表进行合并。使得left原创 2017-07-20 12:26:26 · 716 阅读 · 0 评论