PySpark 入门五：DataFrame

最新推荐文章于 2022-07-19 16:02:01 发布

VIP文章 Roc Huang

最新推荐文章于 2022-07-19 16:02:01 发布

阅读量319

点赞数

分类专栏： PySpark从入门到放弃数据分析文章标签： spark hadoop

本文链接：https://blog.csdn.net/weixin_43790705/article/details/108306004

版权

一、DataFrame创建

spark下创建dataframe 一般是通过SparkSession 导入数据来创建的

# 导包
from pyspark import SparkContext
from pyspark.sql.session import SparkSession

# 创建session
sc = SparkContext.getOrCreate()
spark = SparkSession(sc)

在之前的文章中，我们已知了 RDD可以通过自己创建，也可以通过访问本地的文件系统获得。同样，datafrom也可以通过访问文件系统，或者是通过自己创建的RDD来获得。今天学习的是通过创建的RDD来生成dataframe数据。

# 定义JsonRDD
jsonRdd = sc.parallelsize([
	{
   
		'id': 123,
        'name': 'roc',
        'age': 24,
	},
	{
   
		'id': 234,
        'name':

最低0.47元/天解锁文章

优惠劵

Roc Huang

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PySpark 入门五：DataFrame

一、DataFrame创建spark下创建dataframe 一般是通过SparkSession 导入数据来创建的# 导包from pyspark import SparkContextfrom pyspark.sql.session import SparkSession# 创建sessionsc = SparkContext.getOrCreate()spark = SparkSession(sc)在之前的文章中，我们已知了 RDD可以通过自己创建，也可以通过访问本地的文件系统获得。
复制链接

扫一扫