【Python】Python连接Hadoop数据中遇到的各种坑（汇总）

最新推荐文章于 2024-08-19 11:09:58 发布

wx0628

最新推荐文章于 2024-08-19 11:09:58 发布

阅读量1.4w

点赞数 17

分类专栏： Python学习笔记文章标签： Python Hadoop impala 坑问题与解决

本文链接：https://blog.csdn.net/wx0628/article/details/86550582

版权

本文详细记录了使用Python3.7通过impala连接Hadoop数据库时遇到的各种问题及解决方案，包括语法错误、Parser.py加载错误、认证机制缺失、thrift-sasl版本过高、sasl和pure-sasl冲突等问题。通过调整代码和管理依赖包，成功解决连接问题。建议保持相关依赖包版本一致，使用conda安装以简化依赖管理。

摘要由CSDN通过智能技术生成

最近准备使用Python+Hadoop+Pandas进行一些深度的分析与机器学习相关工作。（当然随着学习过程的进展，现在准备使用Python+Spark+Hadoop这样一套体系来搭建后续的工作环境），当然这是后话。
但是这项工作首要条件就是将Python与Hadoop进行打通，本来认为很容易的一项工作，没有想到竟然遇到各种坑，花费了整整半天时间。后来也在网上看到大家在咨询相同的问题，但是真正解决这个问题的帖子又几乎没有，所以现在将Python连接Hadoop数据库过程中遇到的各种坑进行一个汇总，然后与大家进行分享，以尽量避免大家花费宝贵的时间。

（说明一下：这篇文章中的各种坑的解决，翻阅了网上无数的帖子，最好一GIT上面一个帖子的角落里面带了这么一句，否则很容易翻船。但是由于帖子太多，所以我就不一一帖出来了）

首先是选组件，我选择的是使用：impala+Python3.7来连接Hadoop数据库，如果你不是的话，就不要浪费宝贵时间继续阅读了。

执行的代码如下：

import impala.dbapi as ipdb
conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN')
cursor = conn.cursor()
#其中xxxx是表名，为了不涉及到公司的信息，我把表名隐藏掉了，大家自己换成自己数据库表名
cursor.execute('select * From xxxx')
print(cursor.description)  # prints the result set's schema
for rowData in cursor.fetchall():
    print(rowData)
conn.close()

坑一：提示语法错误
现象：

/Users/wangxxin/miniconda3/bin/python3.7 /Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py
Traceback (most recent call last):
  File "/Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py", line 1, in <module>
    import impala