Python数据分析作业4——文件合并、数据分组统计

import pandas as pd
import numpy as np

#合并数据方法一
data1 = pd.read_csv("guazi_bj.csv")
data2 = pd.read_csv("guazi_gz.csv")
data3 = pd.read_csv("guazi_sh.csv")
data4 = pd.read_csv("guazi_sz.csv")
data = pd.concat([data1,data2,data3,data4],axis=0,join="outer",ignore_index=True)
print(data)

#合并数据方法二,用于大量文件的合并,引入OS模块
#①**************************************
import os
filenames = os.listdir("D:\PycharmProjects\数据处理学习\逻辑教育数据分析作业") #读取该文件夹下的所有文件名
# print(filenames)
filenames.pop(-1)  #删除作业4.py文件名
# print(filenames)
data_list = []
for i in range(len(filenames)):
    file_i = filenames[i]
    data_i = pd.read_csv(file_i)
    data_list.append(data_i)
data_total = pd.concat(data_list,axis=0,join="outer",ignore_index=True)
print(data_total)
#②**************************************
import os
filenames = os.listdir("D:\PycharmProjects\数据处理学习\逻辑教育数据分析作业") #读取该文件夹下的所有文件名
# print(filenames)
filenames.pop(-1)  #删除作业4.py文件名
print(filenames)
data_list = []
for filename in filenames:
    data_name = pd.read_csv(filename)
    data_list.append(data_name)
data_total = pd.concat(data_list,axis=0,join="outer",ignore_index=True)
print(data_total)
#**************************************



data_unique = data.drop_duplicates(ignore_index=True)   #删除重复数据并重建索引
# print(data_unique.head())
# print(data_unique.info())
unique_speedbox = data_unique["speedbox"].unique()  #查看speedbox有哪些:自动挡和手动挡
# print(unique_speedbox)
unique_city = data_unique["city"].unique()
# print(unique_city)

#统计自动挡和手动挡的数量
print(data_unique["speedbox"].value_counts())   #.value_counts()) 也可以用先groupby再.count()统计

#统计各城市的二手车数量
city_counts = data_unique["city"].value_counts()
print(city_counts)

#统计每个品牌的汽车售价
brand_price = data_unique["es_price"].groupby(data_unique["brand"]).mean()
print(brand_price)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值