![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
文章平均质量分 82
woshimeilinda
这个作者很懒,什么都没留下…
展开
-
HIVE和SPARK的区别
spark hive区别一:Hive本质是是什么1:hive是分布式又是数据仓库,同时又是查询引擎,Spark SQL只是取代的HIVE的查询引擎这一部分,企业一般使用Hive+spark SQL进行开发2:hive的主要工作 1> 把HQL翻译长map-reduce的代码,并且有可能产生很多mapreduce的job 2> 把生产的Mapreduce代码及相关资源打...原创 2020-05-02 20:17:05 · 24896 阅读 · 0 评论 -
Hive面试题:hive有哪些udf函数,作用
Hive面试题:hive有哪些udf函数,作用UDF(user-defined function)作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。(count,max)UDTF(表格生成函数 User-Defined Table F...原创 2020-03-24 10:52:44 · 602 阅读 · 0 评论 -
面试那点事之白话叙说mapreduce计算模型和执行原理
白话叙说mapreduce计算模型和执行原理MapReduce是一种分布式计算模型、MR由两个阶段组成:Map和Reduce,一说到分阶段就有先有后,先执行map 在执行reduce。,map就是我们整个计算阶段的起始,reduce呢就是我们整个计算阶段的结束。从这个角度讲我们map的输入就是整个系统的输入,reduce的输出就是整个系统的输出 ,map的输出也就是reduce的输入 这个呢,...原创 2020-03-06 19:43:31 · 370 阅读 · 0 评论 -
数据倾斜
大数据----“数据倾斜”的问题大数据首席数据师一、Hadoop中的数据倾斜:什么是数据倾斜?(见下图)简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子: 它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现的次数。若进行 word c...原创 2020-03-06 18:41:59 · 118 阅读 · 0 评论