Task3 数据重构_学习笔记

最新推荐文章于 2024-07-17 12:17:28 发布

Moana11

最新推荐文章于 2024-07-17 12:17:28 发布

阅读量187

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/xie_nic/article/details/108190568

版权

笔记专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Task3 数据重构_学习笔记

1、数据合并

1.1 数据合并的几类方法

方法一：concat()

concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, 
       keys=None, levels=None, names=None, verify_integrity=False, copy=True):

参数介绍：
objs：需要连接的对象集合，一般是列表或字典；
axis：连接轴向；
join：参数为‘outer’或‘inner’；
keys=[]：创建层次化索引；
ignore_index=True：重建索引

concat方法相当于数据库中的全连接（union all），它不仅可以指定连接的方式（outer join或inner join）还可以指定按照某个轴进行连接。与数据库不同的是，它不会去重，但是可以使用drop_duplicates方法达到去重的效果。

import pandas as pd
import numpy as np
train=pd.read_csv('titanic/train.csv')
train_left_up=pd.read_csv('titanic/data/train_left_up.csv')
train_left_down=pd.read_csv('titanic/data/train_left_down.csv')
train_right_up=pd.read_csv('titanic/data/train_right_up.csv')
train_right_down=pd.read_csv('titanic/data/train_right_down.csv')

#方法一：concat()
#axis=1,表示跨行进行合并，也就是将量表左右相连，如果是axis=0，就是将量表上下相连
a_result_up=pd.concat([train_left_up,train_right_up],axis=1) #左右相连
b_result_down=pd.concat([train_left_down,train_right_down],axis=1) #左右相连
c_result=pd.concat([a_result_up,b_result_down],axis=0) #上下相连(默认是上下相连)
c_result

pd.concat()只是单纯的把两个表拼接在一起，参数axis是关键，它用于指定是行还是列，axis默认是0。当axis=0时，pd.concat([obj1, obj2])的效果与obj1.append(obj2)是相同的；当axis=1时，pd.concat([obj1, obj2], axis=1)的效果与pd.merge(obj1, obj2, left_index=True, right_index=True, how=‘outer’)是相同的。

方法二：使用DataFrame自带的方法join方法和append

join(self, other, on=None, how='left', lsuffix='', rsuffix='',sort=False):

#方法二：使用DataFrame自带的方法join方法和append
d_result_up=train_left_up.join(train_right_up)  #使用join左右相连
e_result_down=train_left_down.join(train_right_down)  #使用join左右相连
f_result=d_result_up.append(e_result_down)  #使用append上下相连
# f_result

方法三：

merge(left, right, how='inner', on=None, left_on=None, right_on=None,  
      left_index=False, right_index=False, sort=True,  
      suffixes=('_x', '_y'), copy=True, indicator=False)

参数介绍：
left和right：两个不同的DataFrame；
how：连接方式，有inner、left、right、outer，默认为inner；
on：指的是用于连接的列索引名称，必须存在于左右两个DataFrame中，如果没有指定且其他参数也没有指定，则以两个DataFrame列名交集作为连接键；
left_on：左侧DataFrame中用于连接键的列名，这个参数左右列名不同但代表的含义相同时非常的有用；
right_on：右侧DataFrame中用于连接键的列名；
left_index：使用左侧DataFrame中的行索引作为连接键；
right_index：使用右侧DataFrame中的行索引作为连接键；
sort：默认为True，将合并的数据进行排序，设置为False可以提高性能；
suffixes：字符串值组成的元组，用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称，默认为(’_x’, ‘_y’)；
copy：默认为True，总是将数据复制到数据结构中，设置为False可以提高性能；
indicator：显示合并数据中数据的来源情况

#方法三：使用Panads的merge方法和DataFrame的append方法
g_result_up=pd.merge(train_left_up,train_right_up,left_index=True,right_index=True)
h_result_down=pd.merge(train_left_down,train_right_down,left_index=True,right_index=True)
i_result=g_result_up.append(h_result_down)
i_result

1.2 数据重排

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”
常见的数据的层次化结构有两种，一种是表格，一种是“花括号”
表格在行列方向上均有索引（类似于DataFrame），花括号结构只有“列方向”上的索引（类似于层次化的Series），结构更加偏向于堆叠（Series-stack，方便记忆）。stack函数会将数据从”表格结构“变成”花括号结构“，即将其行索引变成列索引，反之，unstack函数将数据从”花括号结构“变成”表格结构“，即要将其中一层的列索引变成行索引。

https://www.cnblogs.com/bambipai/p/7658311.html

**stack函数将原表格的每行变成一列来存储

import pandas as pd
import numpy as np
result=pd.read_csv('titanic/data/result.csv')
unit_result=result.stack()
unit_result

2、数据运用

2.1 了解Groupby

2.2 Groupby 的应用

计算不同性别的平均票价

Moana11

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录