Spark之Dataframe

学无止路，苦海无涯

已于 2022-02-28 13:44:42 修改

阅读量512

点赞数

文章标签： spark 大数据

于 2022-01-13 18:47:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_60493954/article/details/122480209

版权

创建DataFrame, customers, products, sales

创建下面三个dataframe (df_customers, df_products, df_sales)

1）创建df_customers：

customers = [(1,'James',21,'M'), (2, "Liz",25,"F"), (3, "John", 31, "M"),\

(4, "Jennifer", 45, "F"), (5, "Robert", 41, "M"), (6, "Sandra", 45, "F")]

df_customers = spark.createDataFrame(customers, ["cID", "name", "age", "gender"]) # list -> DF

df_customers.show()

+---+--------+---+------+

|cID| name|age|gender|

+---+--------+---+------+

| 1| James| 21| M|

| 2| Liz| 25| F|

| 3| John| 31| M|

| 4|Jennifer| 45| F|

| 5| Robert| 41| M|

| 6| Sandra| 45| F|

+---+--------+---+------+

2）创建df_products：

products = [(1, "iPhone", 600, 400), (2, "Galaxy", 500, 400), (3, "iPad", 400, 300),\

(4, "Kindel",200,100), (5, "MacBook", 1200, 900), (6, "Dell",500, 400)]

df_products = sc.parallelize(products).toDF(["pId", "name", "price", "cost"]) # List-> RDD ->DF

df_products.show()

+---+-------+-----+----+

|pId| name|price|cost|

+---+-------+-----+----+

| 1| iPhone| 600| 400|

| 2| Galaxy| 500| 400|

| 3| iPad| 400| 300|

| 4| Kindel| 200| 100|

| 5|MacBook| 1200| 900|

| 6| Dell| 500| 400|

+---+-------+-----+----+

3）创建df_sales：

sales = [("01/01/2015", "iPhone", "USA", 40000), ("01/02/2015", "iPhone",

最低0.47元/天解锁文章

学无止路，苦海无涯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark之Dataframe

创建DataFrame, customers, products, sales创建下面三个dataframe (df_customers, df_products, df_sales)1）创建df_customers：customers = [(1,'James',21,'M'), (2, "Liz",25,"F"), (3, "John", 31, "M"),\ (4, "Jennifer", 45, "F"), (5, "Robert", 41, "M"), (6, "Sandr...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。