六月:手动学数据分析(task02)

复习: 在前面我们已经学习了Pandas基础,第二章我们开始进入数据分析的业务部分,在第二章第一节的内容中,我们学习了数据的清洗,这一部分十分重要,只有数据变得相对干净,我们之后对数据的分析才可以更有力。而这一节,我们要做的是数据重构,数据重构依旧属于数据理解(准备)的范围。

# Time: 2021-06-16
# 本文有少量备注,并对文章内容进行了优化
# 目标是成为【优秀学习者】
# 总结不易,望点赞鼓励

【task 02】数据清洗和特征处理

<--------感谢评论区指正,内容已更新!--------->

第二章:数据清洗和特征处理

import numpy as np
import pandas as pd

2.1 数据的合并

2.1.1 任务一:载入四份被分割的数据

将data文件夹里面的所有数据都载入,我们看到四分数据,是将上一讲完整数据行、列进行了切割:

  • left_up:左上部分
  • left_down:左下部分
  • right-up:右上部分
  • right_down:右下部分
text_left_up = pd.read_csv("data/train-left-up.csv")
text_left_down = pd.read_csv("data/train-left-down.csv")
text_right_up = pd.read_csv("data/train-right-up.csv")
text_right_down = pd.read_csv("data/train-right-down.csv")
text_left_up.head()
PassengerIdSurvivedPclassName
0103Braund, Mr. Owen Harris
1211Cumings, Mrs. John Bradley (Florence Briggs Th...
2313Heikkinen, Miss. Laina
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)
4503Allen, Mr. William Henry
  • 【乘客ID】【是否幸存】【舱位等级】【名字】
text_left_down.head()
PassengerIdSurvivedPclassName
044002Kvillner, Mr. Johan Henrik Johannesson
144112Hart, Mrs. Benjamin (Esther Ada Bloomfield)
244203Hampe, Mr. Leon
344303Petterson, Mr. Johan Emil
444412Reynaldo, Ms. Encarnacion
  • 【乘客ID】【是否幸存】【舱位等级】【名字】
text_right_down.head()
SexAgeSibSpParchTicketFareCabinEmbarked
0male31.000C.A. 1872310.500NaNS
1female45.011F.C.C. 1352926.250NaNS
2male20.0003457699.500NaNS
3male25.0103470767.775NaNS
4female28.00023043413.000NaNS
  • 【性别】【年龄】【兄弟姐妹个数】【父母孩子个数】【船票信息】【票价】【船舱】【登船口】
text_right_up.head()
SexAgeSibSpParchTicketFareCabinEmbarked
0male22.010A/5 211717.2500NaNS
1female38.010PC 1759971.2833C85C
2female26.000STON/O2. 31012827.9250NaNS
3female35.01011380353.1000C123S
4male35.0003734508.0500NaNS
  • 【性别】【年龄】【兄弟姐妹个数】【父母孩子个数】【船票信息】【票价】【船舱】【登船口】
2.1.2 任务二:使用concat方法,合并两CSV文件
  • pd.concat()
import pandas as pd
pd.concat(object,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False)

参数含义

  • objs:Series,DataFrame或Panel对象的序列或映射。如果传递了dict,则排序的键将用作键参数,除非它被传递,在这种情况下,将选择值(见下文)。任何无对象将被静默删除,除非它们都是无,在这种情况下将引发一个ValueError。
  • axis:{0,1,…},默认为0。0是行,1是列。
  • join:{‘inner’,‘outer’},默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。
  • ignore_index:boolean,default False。如果为True,请不要使用并置轴上的索引值。结果轴将被标记为0,…,n-1。如果要连接其中并置轴没有有意义的索引信息的对象,这将非常有用。注意,其他轴上的索引值在连接中仍然受到尊重。
  • join_axes:Index对象列表。用于其他n-1轴的特定索引,而不是执行内部/外部设置逻辑。
  • keys:序列,默认值无。使用传递的键作为最外层构建层次索引。如果为多索引,应该使用元组。
  • levels:序列列表,默认值无。用于构建MultiIndex的特定级别(唯一值)。否则,它们将从键推断。
  • names:list,default无。结果层次索引中的级别的名称。
  • verify_integrity:boolean,default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。
  • copy:boolean,default True。如果为False,请勿不必要地复制数据。

【默认形式】
默认形式是改行,列对齐

frames = [df1, df2, df3] #DF型
result = pd.concat(frames) #默认是0 需要合并是行

在这里插入图片描述

【用KEY来区分不同表的来源】

result=pd.concat(frames,keys=['x','y','z'])

在这里插入图片描述
【列上的合并,axis=1】

result = pd.concat([df1, df4], axis=1)

在这里插入图片描述

  • 默认join = ‘outer’,为取并集的关系,有相同索引的连接【如图行索引2.3】,确实的NaN

【列上合并,内联join='inner’取交】

result = pd.concat([df1, df4], axis=1, join='inner')

在这里插入图片描述

【join_axes】

如果是join_axes的参数传入,可以指定根据那个轴来对齐数据

result=pd.concat([df1,df4],axis=1,join_axes=[df1.index])

在这里插入图片描述

  • 列合并,以df1的索引为轴,将df4与其连接,缺失的用NaN

【任务要求】将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_up

list_up = [text_left_up,text_right_up]
result_up = pd.concat(list_up,axis=1)
result_up
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS
1211Cumings, Mrs. John Bradley (Florence Briggs Th...female38.010PC 1759971.2833C85C
2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
4503Allen, Mr. William Henrymale35.0003734508.0500NaNS
.......................................
43443501Silvey, Mr. William Bairdmale50.0101350755.9000E44S
43543611Carter, Miss. Lucile Polkfemale14.012113760120.0000B96 B98S
43643703Ford, Miss. Doolina Margaret "Daisy"female21.022W./C. 660834.3750NaNS
43743812Richards, Mrs. Sidney (Emily Hocking)female24.0232910618.7500NaNS
43843901Fortune, Mr. Markmale64.01419950263.0000C23 C25 C27S

439 rows × 12 columns

  • 现将表构成list,然后在作为concat的输入
2.1.3 任务三:使用concat方法,两表纵向合并

使用concat方法:将train-left-down和train-right-down横向合并为一张表,并保存这张表为result_down。然后将上边的result_up和result_down纵向合并为result。

list_down=[text_left_down,text_right_down]
result_down = pd.concat(list_down,axis=1)
result_down
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
044002Kvillner, Mr. Johan Henrik Johannessonmale31.000C.A. 1872310.500NaNS
144112Hart, Mrs. Benjamin (Esther Ada Bloomfield)female45.011F.C.C. 1352926.250NaNS
244203Hampe, Mr. Leonmale20.0003457699.500NaNS
344303Petterson, Mr. Johan Emilmale25.0103470767.775NaNS
444412Reynaldo, Ms. Encarnacionfemale28.00023043413.000NaNS
.......................................
44788702Montvila, Rev. Juozasmale27.00021153613.000NaNS
44888811Graham, Miss. Margaret Edithfemale19.00011205330.000B42S
44988903Johnston, Miss. Catherine Helen "Carrie"femaleNaN12W./C. 660723.450NaNS
45089011Behr, Mr. Karl Howellmale26.00011136930.000C148C
45189103Dooley, Mr. Patrickmale32.0003703767.750NaNQ

452 rows × 12 columns

result = pd.concat([result_up,result_down])
result
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS
1211Cumings, Mrs. John Bradley (Florence Briggs Th...female38.010PC 1759971.2833C85C
2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
4503Allen, Mr. William Henrymale35.0003734508.0500NaNS
.......................................
44788702Montvila, Rev. Juozasmale27.00021153613.0000NaNS
44888811Graham, Miss. Margaret Edithfemale19.00011205330.0000B42S
44988903Johnston, Miss. Catherine Helen "Carrie"femaleNaN12W./C. 660723.4500NaNS
45089011Behr, Mr. Karl Howellmale26.00011136930.0000C148C
45189103Dooley, Mr. Patrickmale32.0003703767.7500NaNQ

891 rows × 12 columns

result.loc[1].head()
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
1211Cumings, Mrs. John Bradley (Florence Briggs Th...female38.010PC 1759971.2833C85C
144112Hart, Mrs. Benjamin (Esther Ada Bloomfield)female45.011F.C.C. 1352926.2500NaNS
  • 我们会发现 表是拼起来了 但是第一列索引是乱的

【解决】用到了drop

  • drop=True就是把原来的索引index列去掉,重置index。

  • drop=False就是保留原来的索引,添加重置的index。

result_1 = pd.concat([result_up,result_down]).reset_index(drop = True)
result_1
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS
1211Cumings, Mrs. John Bradley (Florence Briggs Th...female38.010PC 1759971.2833C85C
2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
4503Allen, Mr. William Henrymale35.0003734508.0500NaNS
.......................................
88688702Montvila, Rev. Juozasmale27.00021153613.0000NaNS
88788811Graham, Miss. Margaret Edithfemale19.00011205330.0000B42S
88888903Johnston, Miss. Catherine Helen "Carrie"femaleNaN12W./C. 660723.4500NaNS
88989011Behr, Mr. Karl Howellmale26.00011136930.0000C148C
89089103Dooley, Mr. Patrickmale32.0003703767.7500NaNQ

891 rows × 12 columns

2.1.4 任务四:join方法和append:完成任务二和任务三
resul_up = text_left_up.join(text_right_up)
resul_up
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS
1211Cumings, Mrs. John Bradley (Florence Briggs Th...female38.010PC 1759971.2833C85C
2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
4503Allen, Mr. William Henrymale35.0003734508.0500NaNS
.......................................
43443501Silvey, Mr. William Bairdmale50.0101350755.9000E44S
43543611Carter, Miss. Lucile Polkfemale14.012113760120.0000B96 B98S
43643703Ford, Miss. Doolina Margaret "Daisy"female21.022W./C. 660834.3750NaNS
43743812Richards, Mrs. Sidney (Emily Hocking)female24.0232910618.7500NaNS
43843901Fortune, Mr. Markmale64.01419950263.0000C23 C25 C27S

439 rows × 12 columns

result_down = text_left_down.join(text_right_down)
result = result_up.append(result_down)
result
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS
1211Cumings, Mrs. John Bradley (Florence Briggs Th...female38.010PC 1759971.2833C85C
2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
4503Allen, Mr. William Henrymale35.0003734508.0500NaNS
.......................................
44788702Montvila, Rev. Juozasmale27.00021153613.0000NaNS
44888811Graham, Miss. Margaret Edithfemale19.00011205330.0000B42S
44988903Johnston, Miss. Catherine Helen "Carrie"femaleNaN12W./C. 660723.4500NaNS
45089011Behr, Mr. Karl Howellmale26.00011136930.0000C148C
45189103Dooley, Mr. Patrickmale32.0003703767.7500NaNQ

891 rows × 12 columns

2.1.5 任务五:使用pd.merge和append方法:完成任务二和任务三的任务
  • pd.merge()

以index为链接键,需要同时设置left_index= True 和 right_index= True,或者left_index设置的同时,right_on指定某个Key。总的来说就是需要指定left、right链接的键,可以同时是key、index或者混合使用。

result_up = pd.merge(text_left_up,text_right_up,left_index=True,right_index=True)
result_down = pd.merge(text_left_down,text_right_down,left_index=True,right_index=True)
result = result_up.append(result_down)
result
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
0103Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS
1211Cumings, Mrs. John Bradley (Florence Briggs Th...female38.010PC 1759971.2833C85C
2313Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
4503Allen, Mr. William Henrymale35.0003734508.0500NaNS
.......................................
44788702Montvila, Rev. Juozasmale27.00021153613.0000NaNS
44888811Graham, Miss. Margaret Edithfemale19.00011205330.0000B42S
44988903Johnston, Miss. Catherine Helen "Carrie"femaleNaN12W./C. 660723.4500NaNS
45089011Behr, Mr. Karl Howellmale26.00011136930.0000C148C
45189103Dooley, Mr. Patrickmale32.0003703767.7500NaNQ

891 rows × 12 columns

【思考】对比merge、join以及concat的方法的不同以及相同。思考一下在任务四和任务五的情况下,为什么都要求使用DataFrame的append方法,如何只要求使用merge或者join可不可以完成任务四和任务五呢?

2.1.6 任务六:完成的数据保存为result.csv
result.to_csv('result_task02.csv')

2.2 换一种角度看数据

2.2.1 任务一:将我们的数据变为Series类型的数据
# 将完整的数据加载出来
text = pd.read_csv('result_task02.csv')
text.head()
# 代码写在这里
unit_result=text.stack().head(30)
unit_result

0  Unnamed: 0                                                     0
   PassengerId                                                    1
   Survived                                                       0
   Pclass                                                         3
   Name                                     Braund, Mr. Owen Harris
   Sex                                                         male
   Age                                                         22.0
   SibSp                                                          1
   Parch                                                          0
   Ticket                                                 A/5 21171
   Fare                                                        7.25
   Embarked                                                       S
1  Unnamed: 0                                                     1
   PassengerId                                                    2
   Survived                                                       1
   Pclass                                                         1
   Name           Cumings, Mrs. John Bradley (Florence Briggs Th...
   Sex                                                       female
   Age                                                         38.0
   SibSp                                                          1
   Parch                                                          0
   Ticket                                                  PC 17599
   Fare                                                     71.2833
   Cabin                                                        C85
   Embarked                                                       C
2  Unnamed: 0                                                     2
   PassengerId                                                    3
   Survived                                                       1
   Pclass                                                         3
   Name                                      Heikkinen, Miss. Laina
dtype: object
#将代码保存为unit_result,csv
unit_result.to_csv('unit_result.csv')
test = pd.read_csv('unit_result.csv')
test
Unnamed: 0Unnamed: 10
00Unnamed: 00
10PassengerId1
20Survived0
30Pclass3
40NameBraund, Mr. Owen Harris
50Sexmale
60Age22.0
70SibSp1
80Parch0
90TicketA/5 21171
100Fare7.25
110EmbarkedS
121Unnamed: 01
131PassengerId2
141Survived1
151Pclass1
161NameCumings, Mrs. John Bradley (Florence Briggs Th...
171Sexfemale
181Age38.0
191SibSp1
  • 这个stack函数是干什么的?

stack是栈的意思 其实就是讲列表传入到栈中,每条记录 收尾相接

函数原型为:stack(arrays, axis=0),arrays可以传数组和列表。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羊老羊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值