在大数据工作中经常碰到需要将hive查询数据导入到mysql的需求,常见的方法主要有两种,一是sqoop,另一种则是pyhive。本文主要讲的就是python的pyhive库的安装与使用。
pyhive作用
- 远程连接hive数据库,运行hive sql,而不需要登录到安装有hive的服务器上去
- 可以更方便处理更多连续命令,可以封装一些经常需要复用的命令
- 脚本化,不需要编译,随时改,随时执行看结果
- 方便对hive sql的结果进行更多处理,而不是仅仅在终端打印出来看一看
安装环境
这里只讲解Linux环境,以ubuntu为例,其他系统类似
- python 环境,我装的是python2 apt-get install python2.7
- apt-get install python-dev
- apt-get install libsasl2-dev
- pip install sasl
- pip install thrift-sasl
pip install PyHive
注意不要漏装,否则报错,另外如果使用python3,则安装包的名字可能不一样,比如python3-dev
用法
连接hive数据库
conn=hive.Connection(host='xxx.xxx.xxx.xxx', port=10000, database='database name', auth='NOSASL' )
cursor = conn.cur