【可视化】

DSJYB_WHY

已于 2024-01-05 21:02:15 修改

阅读量1.6k

点赞数 41

文章标签： python

于 2024-01-05 20:28:42 首次发布

本文链接：https://blog.csdn.net/z12180534why_zyt/article/details/135416118

版权

本文详细介绍了Python中Pandas库进行数据合并（包括纵向和横向拼接）、主键合并（左连接、右连接、内连接、外连接）的方法，以及数据清洗中的去重复值和处理缺失值策略，如删除法和替换法，包括使用平均值和众数处理异常值。

摘要由CSDN通过智能技术生成

数据合并

概念

1.纵向拼接

指将两个列名相同的Dataframe表格对象上下拼接到一起。

2.横向拼接

指将两个索引相同的Dataframe表格对象左右拼接到一起。

拼接合并

pd.concat()函数
语法:pd.concat([表格对象1，表格对象2],axis=0或1)
axis默认为0，表示为横向拼接，axis=1时则表示纵向拼接

主键合并

基于两个表共有的主键(即某列数据)将两个表的数据根据主键相同原则进行拼接（匹配）。

合并方式

根据合并后显示数据的逻辑不同，将主键合并分为：左连接、右连接、内连接、外连接。

合并方式	结果
左连接	只显示左表的主键所对应的数据
右连接	只显示右表的主键所对应的数据
内连接	只显示左表和右表共有的主键所对应的数据
外连接	显示左表和右表所有的主键所对应的数据

主键合并函数pd.merge()
参数含义

参数	作用
left	用来合并的左表，接收DataFrame表格对象
right	用来合并的右表，接收DataFrame表格对象
how	主键合并的连接方式(左连接left、右连接right、外连接outer、内连接inner)
on	当左右表用来拼接的字段名相同时，可以使用on参数指定
left_on	左右两表中主键名称不一致时使用，指定左表的主键列名
right_on	左右两表中主键名称不一致时使用，指定右表的主键列名
left_index	当需要以左表的索引作为主键时使用、接收布尔值True
right_index	当需要以右表的索引作为主键时使用，接收布尔值True

示例

#先创建两个表格对象
df1 = pd,DataFrame(
	[['张三','19'],['王五','20'],['李四','19']],
	columns=['姓名','年龄']
)

df2 = pd.DataFrame)
	[['张三','男'],['王五','男'],['李四','女']],
	columns=['姓名','性别']
)

#左连接
pd.merge(
	df1,
	df2,
	how='left',
	on = '姓名'
)
#右连接
pd.merge(
	df1,
	df2,
	how='right',
	on = '姓名'
)
#外连接
pd.merge(	
	df1,
	df2,
	how='outer',
	on = '姓名'
)
#内连接
pd.merge(
	df1,
	df2,
	how='inner',
	on = '姓名'
)

数据清洗

去重复值

概念：删除某个序列或是表格中某个序列中的重复数据。
方法：DataFrame表格和Series序列对象内置方法drop_duplicates()
语法：表格/序列对象.drop_duplicates(subset=None,keep=‘first’,inplace=False)

参数	作用
subset	当去重对象是表格对象时使用，指定去重依据的字段
keep	指定去重后保留哪一行，frist表示第一行，last表示最后一行
inplace	表示去重是否堆在原始数据对象上运行

表格去重
通过subset参数指定通过哪一列数据来去重

df.drop_duplicates(subset=['姓名'])

处理缺失值
查看数据的缺失值

表格对象.isnull()方法返回数据是否缺失的布尔值矩阵。
表格对象.isnull().sum()返回各列的缺失值数量。

#导入表格数据后
#查看缺失的布尔值矩阵
df_user.isnull()
#查看各列缺失值的数量
df_user.isnull().sum()

1.删除法处理缺失值
删除法：删除某个缺失数据所在的行的所有数据。
语法：表格对象.dropna(axis=0,how=‘any’,subset=None,inplace=False)

参数	作用
axis	指定删除行或者列，默认为0，表示删除行
how	对表格对象多个字段的缺失值进行删除时使用。‘any’表示任何一个字段有缺失就删除。‘all’表示所有字段都缺失才删除
subset	指定要删除的缺失值来自哪一（几）列
inplace	表示是否对原数据生效，默认为False

#构建一个表格
df_name = pd.DataFrame(
	[['张三',18,'男'],[np.nan,20,'男'],['李四',np.nan,'女']],
	columns=['姓名','年龄','性别']
)

#一列
df_nan.dropna(subset=['姓名','年龄','性别'],how='any')

#所有列
df_nan.dropna(subset=['姓名','年龄','性别'],how='all')