Hadoop 面试题
LD is tigger forever,CG are not brothers forever, throw the pot and shine forever.
Modesty is not false, solid is not naive, treacherous but not deceitful, stay with good people, and stay away from poor people.
talk is cheap, show others the code and KPI, Keep progress,make a better result.
Survive during the day and develop at night。
目录
概 述
hive 分析业务数据:
2、将数据导入到hive中:
sql的设计思路:多表关联:
hive 内部表的问题
3.2.你们数据库怎么导入hive 的,有没有出现问题
在导入hive的时候,如果数据库中有blob或者text字段,会报错,解决方案在sqoop笔记中:
外部表和内部表的区别:
Hive创建内部表时,会将数据移动到数据仓库指向的路径。创建外部表时,仅记录数据所在的路径,不对数据的位置做任何改变,在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。
需要注意的是传统数据库对表数据验证是写时模式,而Hive在load时是不检查数据是否符合schema的,Hive遵循的是读时模式,只有在读的时候Hive才检查解析具体的数据字段。
小结
参考资料和推荐阅读
1.链接: 参考资料.