近期手动搭建了一套hadoop系统,讲下体会和一些踩过的坑
首先是将公钥在各个节点的authorized host之间同步,然后依次安装HDFS,HIVE,SQOOP等等。遇到的坑主要是SQOOP抽数的时候会寻找一个class文件在tmp/sqoop下面会提示找不到这个class需要手动拷到目录下
然后是hive的metastore互导,其实schematool就是使用了hive/script下的脚本建立的数据库,基本就是将原来的mysqldump出来然后依次执行各个升级脚本就可以了,然后更新DBS,SDS当中的location。由于外部表的schema在HDFS上面所以直接查会找不到
其后就是安装了ZK,遇到的坑是配置了集群后启动不了,后来发现是data目录下面没有加myid这个东西。总体来说zk的概念是有瞬态和固有节点,然后可以设置为递增模式。server之间是靠CAP同步的,client可以接入到server。可以同步一些东西,也可以做集群管理。
todo:研究kafka,研究zk的分布式锁