大数据面试题(九):Hive的高频面试考点(值得收藏)
表。存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操作的都是hdfs上的⽂ 件,HQL就是⽤sql语法来写的mr程序。hive是数据仓库,不能和数据库⼀样进⾏实时的CURD操作。是⼀次写⼊多次读取的操作,可以看成是ETL工具。将小表存⼊内存中,将⼩表复制多份,让每个map task内存中保留⼀份(⽐如存放到hash table中),这样只需要扫描⼤表。对于⼤表中的每⼀条记录key/value,在hash table中查找是否有相同的key,如果有,则连接后输出即可。
复制链接