Spark之Dataframe

创建DataFrame, customers, products, sales

  1. 创建下面三个dataframe (df_customers, df_products, df_sales)

1)创建df_customers

customers =  [(1,'James',21,'M'), (2, "Liz",25,"F"), (3, "John", 31, "M"),\

     (4, "Jennifer", 45, "F"), (5, "Robert", 41, "M"), (6, "Sandra", 45, "F")]

df_customers = spark.createDataFrame(customers, ["cID", "name", "age", "gender"]) # list -> DF

df_customers.show()

+---+--------+---+------+

|cID|    name|age|gender|

+---+--------+---+------+

|  1|   James| 21|     M|

|  2|     Liz| 25|     F|

|  3|    John| 31|     M|

|  4|Jennifer| 45|     F|

|  5|  Robert| 41|     M|

|  6|  Sandra| 45|     F|

+---+--------+---+------+

2)创建df_products

products = [(1, "iPhone", 600, 400), (2, "Galaxy", 500, 400), (3, "iPad", 400, 300),\

            (4, "Kindel",200,100), (5, "MacBook", 1200, 900), (6, "Dell",500, 400)]

df_products = sc.parallelize(products).toDF(["pId", "name", "price", "cost"]) # List-> RDD ->DF

df_products.show()

+---+-------+-----+----+

|pId|   name|price|cost|

+---+-------+-----+----+

|  1| iPhone|  600| 400|

|  2| Galaxy|  500| 400|

|  3|   iPad|  400| 300|

|  4| Kindel|  200| 100|

|  5|MacBook| 1200| 900|

|  6|   Dell|  500| 400|

+---+-------+-----+----+

3)创建df_sales

sales = [("01/01/2015", "iPhone", "USA", 40000), ("01/02/2015", "iPhone",

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值