1 hive处理非常小的数据集在执行时也会出现延迟情况
hive 不提供数据排序、查询cache,也不提供在线事务处理、实时的查询功能和记录级的更新。
hive没有专门的存储格式,hive提供了四种数据类型,表、外部表、分区和桶
2 hive外部表和内部表的区别
外部表被external修饰,内部表没有
外部表数据由hdfs管理,内部表数据hive自身管理
外部表只删除元数据,hdfs上数据不删除;内部表删除全部数据包括元数据和存储数据
外部表的表结构和分区修改需要修改msck repair table,内部表的修改可以直接同步到数据。
3 hive对数据的验证不在加载数据时进行,而是在查询时进行,查询时对于不符合要求的数据会以NULL的形式显示给用户,称为读时模式。
4 hive隐式类型转换规则
任何整数类型可以隐式的转换为范围更广的类型
所有整数类型、FLOAT、String类型都能转换成Double
INT、SMALLINT、TINYINT都可以转换为FLOAT
Boolean类型不能转换
TIMESTAMP可以隐式转换为String
5 hive中sort by 和order by的区别
order by 是全局排序,之后产生reduce,对于大规模数据来说效率非常低
sort by 是在每个reduce内部进行排序
cluster by=distribute by+sort by
distribute by 按照指定的字段对数据进行划分输出到不同的reduce中
6 分区
依据分区列的值对表进行粗