hive
文章平均质量分 87
zhuhaiqin
这个作者很懒,什么都没留下…
展开
-
深入MapReduce计算引擎
MapReduce整体处理过程MapReduce会经历作业输入(Input)、业务处理接口Map、Map到Reduce之间数据传输的环节Shuffle、业务处理接口Reduce和作业输出(Output)五大环节。MapReduce整体环节MapReduce整体环节的拆解MapReduce作业输入作业输入的核心是InputFormat类,用于MapReduce作业的输入规范,读取数据文件的规范。通过继承并实现InputFormat接口,可以读取任何想要读取的数据存储文件的格式。原创 2021-02-21 15:54:33 · 681 阅读 · 0 评论 -
Hive支持的计算引擎
目前Hive支持MapReduce、Tez和Spark 3种计算引擎。MapReduce计算引擎在Hive 2.0之后不推荐MR作为计算引擎。Map和Reduce的工作流程MR运行的完整过程:Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一定程度会溢出到磁盘并排序,当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。当Reduce启动时,会启动一.原创 2021-02-21 15:53:10 · 739 阅读 · 0 评论 -
Hive支持的计算引擎
目前Hive支持MapReduce、Tez和Spark 3种计算引擎。MapReduce计算引擎在Hive 2.0之后不推荐MR作为计算引擎。Map和Reduce的工作流程MR运行的完整过程:Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一定程度会溢出到磁盘并排序,当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。当Reduce启动时,会启动一.原创 2021-02-21 11:27:05 · 4735 阅读 · 0 评论 -
Hive架构
Hive架构客户端提交SQL作业到HiveServer2,HiveServer2会根据用户提交的SQL作业及数据库中现有的元数据信息生成一份可供计算引擎执行的计划。每个执行计划对应若干MapReduce作业,Hive会将所有的MapReduce作业都一一提交到YARN中,由YARN去负责创建MapReduce作业对应的子任务,并协调它们的运行。YARN创建的子任务会与HDFS进行交互,获取计算所需的数据,计算完成后将最终的结果写入HDFS或者本地。Hive自身主要包含如下3个部分:第一.原创 2021-02-21 10:58:02 · 1714 阅读 · 0 评论