Spark学习---连接hive直接用sql语句更新数据

卓_尔_不_凡

于 2024-04-25 08:45:32 发布

阅读量336

点赞数 14

分类专栏： spark-sql 文章标签： spark 学习 hive 大数据 hadoop sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46164667/article/details/138174907

版权

spark-sql 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文介绍了如何在Spark环境中设置依赖，包括安装Python包和启动ThriftServer，同时确保Hadoop集群和Hive服务正常运行。作者通过示例展示了如何使用PyHive连接并执行SQL查询。

摘要由CSDN通过智能技术生成

首先进入spark虚拟环境安装依赖和各种需要的包：

conda activate pyspark

yum install zlib-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel libffi-devel gcc make gcc-c++ python-devel cyrus-sasl-devel cyrus-sasl-plain cyrus-sasl-gssapi -y

 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyhive pymysql sasl thrift thrift_sasl

进入spark文件夹下的bin目录打开 thriftserver服务持续监听端口，随时更新sql语句：

start-thriftserver.sh

保证hadoop集群和hive的metastore服务和hiveserver2服务开启：

nohup hive --service metastore 2>&1 &
nohup hive --service hiveserver2 2>&1 &

测试代码：确保有可查询的表存在

# coding:utf8

from pyhive import hive


if __name__ == '__main__':
    # 获取到Hive(Spark ThriftServer的链接)
    conn = hive.Connection(host="192.168.88.161", port=10000, username="root",database='default')

    # 获取一个游标对象
    cursor = conn.cursor()

    # 执行SQL
    cursor.execute("SELECT * FROM student")

    # 通过fetchall API 获得返回值
    result = cursor.fetchall()

    print(result)

连接数据库需要导入jar包

卓_尔_不_凡

关注

14
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习---连接hive直接用sql语句更新数据

测试代码：确保有可查询的表存在。连接数据库需要导入jar包。
复制链接

扫一扫

专栏目录

卓_尔_不_凡 CSDN认证博客专家 CSDN认证企业博客

码龄5年

51: 原创

110万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

1033: 积分

419: 粉丝

508: 获赞

17: 评论

322: 收藏

私信

关注

热门文章

分类专栏

案例实战 21篇
爬虫
Python 11篇
Java 2篇
Hive 6篇
数仓搭建 5篇
Hadoop 10篇
spark 12篇
spark-sql 8篇
Linux 1篇

最新评论

hadoop学习---基于Hive的教育平台数据仓库分析案例（一）
m0_72369705: # 客户表 sqoop import \ --connect jdbc:mysql://192.168.52.150:3306/scrm \ --username root \ --password 123456 \ --query 'SELECT *, "2021-09-27" AS start_time FROM customer where 1=1 and $CONDITIONS' \ --hcatalog-database itcast_dimen \ --hcatalog-table customer \ -m 1 你好，作者大大，这是你的文章《基于hive教育平台数据仓库分析案例二》中的数据采集的 DIM层维度表里的一段代码，我想问问这段代码是放在脚本里面执行吗，还是放在哪里执行。要是放在脚本里执行可以给一个完整的脚本吗？求求了，一定要回我，目前我只能向你发一天信息
hadoop学习---基于Hive的数据仓库相关函数机制及其优化方案
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的航空公司客户价值的LRFCM模型案例
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的教育平台数据仓库分析案例（一）
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的数仓搭建增量信息拉链表的实现
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。