Spark实战(2) DataFrame基础之创建DataFrame

之前,RDD语法占主导,但是比较难用难学.
现在,有了DataFrame,更容易操作和使用spark.

创建DataFrame

from pyspark.sql import SparkSession
# 新建一个session
spark = SparkSession.builder.appName('Basics').getOrCreate()
# 导入数据
df = spark.read.json('people.json')

df.show() # show the data source
df.printSchema() # print the schema of df
df.columns # to get the column names
df.describte().show() # get a statistical summary of df

创建DataFrame(指定Schema)

#********************************************************************#
# 指定frame结构,然后读取,在实际中更有用!
from pyspark.sql.types import StructField, StringType, IntegerType, StructType

# create the data schema
data_schema = [StructField('age', IntegerType(), True),
               StructField('name',StringType(), True)]
# pass the data schema into the Strucutre type
final_struc = StructType(fileds = data_schema)
# create the dataframe with sepecfied data schema
df = spark.read.json('people.json',schema=final_struc)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,这是一个比较具体的实战项目,需要综合运用 Spark 中的 DataFrame API 进行数据处理和分析。下面是具体的步骤: 1. 准备数据源 将汽车销售数据存储在 HDFS 或者本地文件系统中,可以使用 SparkSession 对象的 read 方法读取数据,比如: ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName("CarSalesAnalysis").getOrCreate() sales_data = spark.read.csv("path/to/car_sales_data.csv", header=True, inferSchema=True) ``` 2. 数据清洗和预处理 使用 DataFrame API 中的各种函数和操作符,对数据进行清洗和预处理,比如使用 dropDuplicates 方法去重,使用 na.fill 方法填充缺失值,使用 withColumnRenamed 方法重命名列名等。 ```python # 去重 sales_data = sales_data.dropDuplicates() # 填充缺失值 sales_data = sales_data.na.fill(0, subset=["sales", "quantity"]) # 重命名列名 sales_data = sales_data.withColumnRenamed("carType", "car_type").withColumnRenamed("saleDate", "sale_date") ``` 3. 数据分析 3.1 总体销售情况分析 使用 DataFrame API 中的 count、sum、avg、max、min 等函数,对销售数据进行总体分析,比如: ```python # 统计总销售额和总销量 total_sales = sales_data.selectExpr("sum(sales) as total_sales").collect()[0][0] total_quantity = sales_data.selectExpr("sum(quantity) as total_quantity").collect()[0][0] # 统计平均销售额和平均销量 avg_sales = sales_data.selectExpr("avg(sales) as avg_sales").collect()[0][0] avg_quantity = sales_data.selectExpr("avg(quantity) as avg_quantity").collect()[0][0] # 统计最大销售额和最小销售额 max_sales = sales_data.selectExpr("max(sales) as max_sales").collect()[0][0] min_sales = sales_data.selectExpr("min(sales) as min_sales").collect()[0][0] ``` 3.2 不同车型销售情况分析 使用 DataFrame API 中的 groupBy、sum、count、avg、max、min 等函数,对不同车型的销售情况进行分析,比如: ```python # 统计不同车型的销售额和销量 sales_by_car_type = sales_data.groupBy("car_type").agg({"sales": "sum", "quantity": "sum"}) # 统计不同车型的平均销售额和平均销量 avg_sales_by_car_type = sales_data.groupBy("car_type").agg({"sales": "avg", "quantity": "avg"}) # 统计不同车型的最大销售额和最小销售额 max_min_sales_by_car_type = sales_data.groupBy("car_type").agg({"sales": "max", "sales": "min"}) ``` 3.3 不同区域销售情况分析 使用 DataFrame API 中的 groupBy、sum、count、avg、max、min 等函数,对不同区域的销售情况进行分析,比如: ```python # 统计不同城市的销售额和销量 sales_by_city = sales_data.groupBy("city").agg({"sales": "sum", "quantity": "sum"}) # 统计不同城市的平均销售额和平均销量 avg_sales_by_city = sales_data.groupBy("city").agg({"sales": "avg", "quantity": "avg"}) # 统计不同城市的最大销售额和最小销售额 max_min_sales_by_city = sales_data.groupBy("city").agg({"sales": "max", "sales": "min"}) ``` 3.4 汽车销售趋势分析 使用 DataFrame API 中的 groupBy、sum、count、avg、max、min 等函数,对汽车销售的时间趋势进行分析,比如: ```python # 统计每个月份的销售额和销量 sales_by_month = sales_data.groupBy("month").agg({"sales": "sum", "quantity": "sum"}) # 统计每年的销售额和销量 sales_by_year = sales_data.groupBy("year").agg({"sales": "sum", "quantity": "sum"}) ``` 4. 结果保存 将分析结果保存到 HDFS 或者本地文件系统中,可以使用 DataFrame API 中的 write 方法,比如: ```python sales_by_car_type.write.csv("path/to/sales_by_car_type.csv", header=True) ``` 这样就完成了汽车销售Spark数据处理和数据分析项目的实战。当然,具体的实现还需要根据实际情况进行调整和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值