hive的分区,意思就是将数据存储在多个hdfs的文件夹下,分为静态分区和动态分区,并可以设置多级分区。作用是在进行数据分析的时候,选择分区内的数据,可以提高数据分析的速度,只取对应分区的数据即可。
hive的分桶,实际上就是MapReduce的分区。当两个大文件join的时候,按照相同字段分桶的会与各自分桶的文件进行join,提高join的效率。也可用于进行数据的抽样
# 博学谷IT 技术支持
hive的分区,意思就是将数据存储在多个hdfs的文件夹下,分为静态分区和动态分区,并可以设置多级分区。作用是在进行数据分析的时候,选择分区内的数据,可以提高数据分析的速度,只取对应分区的数据即可。
hive的分桶,实际上就是MapReduce的分区。当两个大文件join的时候,按照相同字段分桶的会与各自分桶的文件进行join,提高join的效率。也可用于进行数据的抽样
# 博学谷IT 技术支持