hands-on-data-analysis-数据重构

最新推荐文章于 2021-11-09 11:51:08 发布

DA之路

最新推荐文章于 2021-11-09 11:51:08 发布

阅读量226

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_45661573/article/details/108185715

版权

数据分析专栏收录该内容

15 篇文章 1 订阅

订阅专栏

hands-on-data-analysis-数据重构

2 第二章：数据重构

2 第二章：数据重构

2.4 数据的合并

2.4.1 任务一：将data文件夹里面的所有数据都载入，观察数据的之间的关系

#写入代码
test_left_up = pd.read_csv("data/train-left-up.csv")
test_left_down = pd.read_csv("data/train-left-down.csv")
test_right_up = pd.read_csv("data/train-right-up.csv")
test_right_down = pd.read_csv("data/train-right-down.csv")

#写入代码
test_left_up.head()

test_left_down.head()

test_right_up.head()

test_right_down.head()

【提示】结合之前我们加载的train.csv数据，大致预测一下上面的数据是什么

2.4.2：任务二：使用concat方法：将数据train-left-up.csv和train-right-up.csv横向合并为一张表，并保存这张表为result_up

#写入代码
list_up = [test_left_up,test_right_up]
result_up = pd.concat(list_up,axis=1)
result_up.head()

2.4.3 任务三：使用concat方法：将train-left-down和train-right-down横向合并为一张表，并保存这张表为result_down。然后将上边的result_up和result_down纵向合并为result。

#写入代码
list_down = [test_left_down, test_right_down]
result_down = pd.concat(list_down,axis = 1)
result = pd.concat([result_up,result_down])
result.head()

2.4.4 任务四：使用DataFrame自带的方法join方法和append：完成任务二和任务三的任务

# 写入代码
result_up = test_left_up.join(test_right_up)
result_down = test_left_down.join(test_right_down)
result = result_up.append(result_down)
result.head()

2.4.5 任务五：使用Panads的merge方法和DataFrame的append方法：完成任务二和任务三的任务

#写入代码
result_up = pd.merge(test_left_up,test_right_up,left_index = True, right_index = True)
result_down = pd.merge(test_left_down,test_right_down,left_index = True, right_index = True)
result = result_up.append(result_down)
result.head()

【思考】对比merge、join以及concat的方法的不同以及相同。思考一下在任务四和任务五的情况下，为什么都要求使用DataFrame的append方法，如何只要求使用merge或者join可不可以完成任务四和任务五呢？

2.4.6 任务六：完成的数据保存为result.csv

#写入代码
result.to_csv('result.csv')

2.5 换一种角度看数据

2.5.1 任务一：将我们的数据变为Series类型的数据

#写入代码
# 将完整的数据加载出来
text = pd.read_csv('result.csv')
text.head()
# 代码写在这里
unit_result=text.stack().head(20)
unit_result.head()

#将代码保存为unit_result,csv
unit_result.to_csv('unit_result.csv')

test = pd.read_csv('unit_result.csv')

test.head()

2.6 数据运用

2.6.1 任务一：通过《Python for Data Analysis》P303、Google or Baidu来学习了解GroupBy机制

python中groupby函数主要的作用是进行数据的分组以及分组后地组内运算！

对于数据的分组和分组运算主要是指groupby函数的应用，具体函数的规则如下：

df[](指输出数据的结果属性名称).groupby([df[属性],df[属性])(指分类的属性，数据的限定定语，可以有多个).mean()(对于数据的计算方式——函数名称)
举例如下：
print(df["评分"].groupby([df["地区"],df["类型"]]).mean())
#上面语句的功能是输出表格所有数据中不同地区不同类型的评分数据平均值

2.6.2：任务二：计算泰坦尼克号男性与女性的平均票价

df  = text['Fare'].groupby(text['Sex'])
means = df.mean()
means

2.6.3：任务三：统计泰坦尼克号中男女的存活人数

survived_sex = text['Survived'].groupby(text['Sex']).sum()
survived_sex.head()

2.6.4：任务四：计算客舱不同等级的存活人数

survived_pclass = text['Survived'].groupby(text['Pclass'])
survived_pclass.sum()

【提示：】表中的存活那一栏，可以发现如果还活着记为1，死亡记为0

【思考：】从数据分析的角度，上面的统计结果可以得出那些结论
【思考】从任务二到任务四中，这些运算可以通过agg()函数来同时计算。并且可以使用rename函数修改列名。你可以按照提示写出这个过程吗？

#例子：
df.groupby('Survived').agg({'Sex': 'mean', 'Pclass': 'count'}).rename(columns=
                            {'Sex': 'mean_sex', 'Pclass': 'count_pclass'})

2.6.5：任务五：统计在不同等级的票中的不同年龄的船票花费的平均值

text.groupby(['Pclass','Age'])['Fare'].mean().head()

2.6.6：任务六：将任务二和任务三的数据合并，并保存到sex_fare_survived.csv

result = pd.merge(means,survived_sex,on='Sex')
result

result.to_csv('sex_fare_survived.csv')

2.6.7：任务七：得出不同年龄的总的存活人数，然后找出存活人数的最高的年龄，最后计算存活人数最高的存活率（存活人数/总人数）

#不同年龄的存活人数
survived_age = text['Survived'].groupby(text['Age']).sum()
survived_age.head()

#找出最大值的年龄段
survived_age[survived_age.values==survived_age.max()]

_sum = text['Survived'].sum()
print(_sum)

#首先计算总人数
_sum = text['Survived'].sum()

print("sum of person:"+str(_sum))

precetn =survived_age.max()/_sum

print("最大存活率："+str(precetn))

DA之路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hands-on-data-analysis-数据重构

hands-on-data-analysis-数据重构2 第二章：数据重构2.4 数据的合并2.4.1 任务一：将data文件夹里面的所有数据都载入，观察数据的之间的关系2.4.2：任务二：使用concat方法：将数据train-left-up.csv和train-right-up.csv横向合并为一张表，并保存这张表为result_up2.4.3 任务三：使用concat方法：将train-left-down和train-right-down横向合并为一张表，并保存这张表为result_down。然后将上
复制链接

扫一扫

专栏目录