1 安装sqoop
下载sqoop-1.2.0.tar.gz(1.20版兼容hadoop0.20版本)
将 hadoop-core-0.20.2-cdh3u3.jar ,hadoop-tools-0.20.2-cdh3u3.jar 放入sqoop/lib目录下,这两个jar包是cloudera公司出的 ,可以去它的官网下载。
2 从mysql中导入数据
进入sqoop解压目录(需要将mysql-connector-java-5.1.17-bin.jar加入到sqoop/lib目录下)
bin/sqoop import --connect jdbc:mysql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLENAME --hive-import -m 1
备注: -m 1 是启动多少个线程的意思,如果数据库没有主键 只能启动一个线程。
3 从postgresql中导入数据
bin/sqoop import --connect jdbc:postgresql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLENAME --hive-import -m 1
4常见问题:
1 从postgresql中导入大表到hive中会出现jvm内存溢出的错误,这是sqoop1.2及以前版本的一个bug,它把整个数据表记录读入内存,导致内存溢出,解决办法是换sqoop1.3及以上版本,这个bug在1.3被修复,但是sqoop1.3 必须依赖chd3的hadoop版本,如果以前装的的纯hadoop版本的话只能换成chd3的版本