python将pandas数据转为spark的dataframe格式保存到hive中

最新推荐文章于 2024-08-03 12:19:43 发布

Kungs8

最新推荐文章于 2024-08-03 12:19:43 发布

阅读量5.8k

点赞数 1

分类专栏： python spark 文章标签： pyspark hive pandas

本文链接：https://blog.csdn.net/yanpenggong/article/details/90786043

版权

python 同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

spark

4 篇文章 0 订阅

订阅专栏

使用python在调用集群跑数据之后，数据以pandas计算，输出的结果保存到hive数据库中，最老套的办法。(注意：这里的spark版本是1.6)
步骤：

from pyspark.sql import HiveContext
from pyspark import SparkConf, SparkContext
from pyspark.sql import functions

conf = SparkConf().setAppName("test")
conf.set("spark.sql.execution.arrow.enabled", "true")
conf.set("spark.driver,memory", "6G")  # 设置最大缓存为6G

sc = SparkContext(conf = conf)
hiveContext = HiveContext(sc)

1、将pandas的dataframe数据转化为spark 的 dataframe格式

data_py = hiveContext.createDataFrame(data_pd)

2、向hive数据库中创建一个表，此表若存在，则不创建

# 设置表的字段名
str_s = ''
for i in data_pd.columns:
    str_s += '%s String,'% i
# 拼写SQL语句
sql_str = 'create table if not exists mdw.predict_lot_count ({})'.format(str_s[:-1])  # 最后一个逗号需要去掉，否则报错
hiveContext.sql(sql_str)  # 执行SQL

其中的 mdw 为库名，predict_lot_count 为表名
3、向数据库的表中存入数据

data_py.write.format("parquet").mode("overwrite").saveAsTable("predict_lot_count")

其中parquet 为数据保存格式。overwrite 为存储方式，这里为覆盖的方式。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kungs8

关注关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Python】pands dataframe与spark dataframe互转

zkq_1986的博客

11-13

1169

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import pandas as pd from pyspark.sql import SparkSession spark= SparkSession\ .builder \ .appName("dataFrame") \ ...

pandas dataframe 写入到hive

weixin_39709476的博客

08-27

7262

pandas dataframe 写入hive表关键流程主要分为两步： 1：将pandas dataframe转换为sparkdataframe：这一步骤主要使用spark自带的接口： spark_df = spark.createDataFrame(pd_df) 2：将spark_df写入到hive的几种方式 spark_df.write.mode('overwrite').format("hive").saveAsTable("dbname.tablename") 以下是一个demo的完整代码：

参与评论您还未登录，请先登录后发表或查看评论

【Pandas】pandas.DataFrame.to_parquet详解与实战应用：将DataFrame写入Parquet格式

最新发布

科技改变人类，技术成就未来

08-03

1130

Parquet 是一种开放的、列式存储格式，尤其适用于大数据处理框架，如 Apache Hadoop、Apache Spark 和 Apache Drill 等。Pandas 提供了 to_parquet 方法，该方法使得将 Pandas DataFrame 写入 Parquet 文件成为可能。这篇博客将详细讲解 to_parquet 方法，包括其作用、使用方法、参数详解、示例代码以及注意事项。

python3处理dataframe数据存入hive数据库

sqylhl的博客

06-10

4699

hive数据库是基于HDFS的一个数据库，是对hdfs数据的一个映射关系。注意：hive数据库存入数据的时候不建议使用insert into语句来进行插入，这样的的操作方式在效率上会很低效。下面来说一下我的经历： 1、使用python3代码把数据存入数据库可以把数据写入csv或者txt文件中，使用分隔符分割（分隔符需要与hive进行映射的表分隔符一致） # Python3把数据写入csv 通过pandas来写入csv并指定分隔符号， df.to_csv(’路径/文件名.csv‘,inde..

【Pyspark】DataFrame存为hive表及hive表的查询方式

J小白的博客

06-12

3441

使用Pyspark训练模型后，经常要将模型的训练结果输出为hive表，这篇博文就介绍如何将dataframe数据存为hive表。想把DataFrame数据存为hive数据，就需要用到HiveContext，下面看下如何使用： #!/usr/bin/python # -*- coding: utf-8 -*- from pyspark.sql import Row from pyspark.ml.linalg import Vectors import numpy as...

python 操作hive pandas 读写hive

达达的博客

07-21

8686

安装准备 python 3.7.2 bit_array thriftpy pure_sasl thirft-sasl==0.2.1(注意一定要用这个版本，并且去除依赖) impyla 执行sql from impala.dbapi import connect conn = connect(host='', port=10000, database='',auth_mechanism='PLAIN') cur = conn.cursor() cur.execute("show tables") 读取数

pyspark之DataFrame写hive表方式

SummerHmh的博客

01-03

9540

文章目录spark 语句静态分区动态分区spark SQL 处理方法例子最近用spark写hive的过程中，遇到了一些问题，故此把这一块整理整理，供使用参考 spark 语句 hive中静态分区和动态分区的区别在于，静态分区是指定分区值，动态区分是根据值进行自动添加到对应的分区。后者在效率上会比较低，需要启动与分区数相同的数量的reducer 静态分区 df.write.mode('overwr...

pyspark dataframe 字段类型转换 pandas和pyspark的dataframe互转

lquarius的博客

04-16

4174

知识点： 1、使用pyspark读取csv：spark.read.format("csv").load('/user/data.csv',header=True, inferSchema="true") 2、dataframe补充空值：fillna() 3、dataframe字段表示方式："APP_HOBY_CASH_LOAN"或df.APP_HOBY_CASH_LOAN或data_df["...

spark写表指定外部表_spark 将dataframe数据写入Hive分区表

weixin_29147347的博客

01-30

1581

从spark1.2 到spark1.3，spark SQL中的SchemaRDD变为了DataFrame，DataFrame相对于SchemaRDD有了较大改变，同时提供了更多好用且方便的API。DataFrame将数据写入hive中时，默认的是hive默认数据库，insertInto没有指定数据库的参数，本文使用了下面方式将数据写入hive表或者hive表的分区中，仅供参考。1、将DataFra...

Spark中DataFrame与Pandas中DataFrame的区别

给我一点温度

08-20

9424

目录为何使用 PySpark DataFrame Pandas DataFrame 数据结构特性 Spark DataFrame 数据结构与存储特性使用 Spark DataFrame 优势 Spark toPandas 详解 Spark与Pandas中的DataFrame的区别为何使用 PySpark DataFrame 使用 pandas 进行数据处理，dataframe...

pandas dataframe和spark dataframe处理大数据的一点建议

qq_42216093的博客

11-02

1648

遇到问题我有一个15GB的Hive表，我想用pandas处理，于是我在pyspark中用spark.sql()读入为spark dataframe，然后使用pandas_df = spark_df.toPandas()命令将spark dataframe转换为pandas dataframe，但这个时候报错： org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, require.

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

09-20

今天小编就为大家分享一篇pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

将pandas.dataframe的数据写入到文件中的方法

09-19

今天小编就为大家分享一篇将pandas.dataframe的数据写入到文件中的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

spark将已经pandas读取出来的dataframe数据存入hive

05-25

在将 Pandas DataFrame 存储到 Hive 中之前，需要先将其转换为 Spark DataFrame。可以使用 PySpark 的 SQLContext 或 SparkSession 对象创建 Spark DataFrame。假设已经创建了一个名为 `pandas_df` 的 Pandas ...

python spark dataframe_pyspark dataframe 常用操作

weixin_39612023的博客

11-21

533

spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到HIVE中。1、union、unionAll、unio...

pyspark 数据写入hive_PySpark存储Hive数据的两种方式

weixin_39690401的博客

02-09

1430

背景：Hive的CREATE TABLE AS 和PySpark的.write.saveAsTable存储之后产生的数据类型并不一样，前者存储的方式是Text形式的，后者的存储形式是parquet形式。示例原始数据的类型hiveContext.sql("SHOW CREATE TABLE testdb.tttest").show(n=1000, truncate=False)+----------...

Spark Dataframe 和 Pandas dataframe 互相转化

a8131357leo的博客

06-22

1772

spark dateframe 到pandas dataframe pandas_df = schemaPeople.toPandas() pandas dateFrame 转换成 sparkDatefreame sparkdataframe = spark.createDataFrame(pandas_df) sparkdataframe = spark.createDataFrame(pandas_df,schema)

sparkDataFrame 与pandas中的DataFrame转换

xiaoting19900818的博客

05-22

4842

1.sparkDataFrame的类型为pyspark.sql.dataframe.DataFrame，通过df.toPandas()即可转换为pandas中的dataFrame类型。2.对于pandas中的DataFrame，想要转换为spark类型的，使用sqlContext = SQLContext（SparkContext（）），sparkContext= sqlContext.creat...

pandas的dataframe转spark的dataframe 互转

Learning

01-12

1084

pandas的dataframe转spark的dataframe spark的dataframe转pandas的dataframe pandas的dataframe和spark的dataframe互转 dataframe互转