python数据分析（一）-CSDN博客

本文链接：https://blog.csdn.net/yuwangzhe233/article/details/98752485

数据存在形式

在这里插入图片描述

导入文件

#导入文件
#有三种导入格式
#read_table(‘文件路径’,names=[‘设置columns’],sep=’,’) 通常导入txt格式数据
#read_excel() 导入xlsx、xls格式数据
#read_csv() 导入csv格式数据
import pandas as pd
doc01 = pd.read_table(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\data.txt’
,names = [‘名字’,‘年龄’,‘语文’,‘数学’,‘英语’],sep=’,’)
doc02 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\data.xlsx’)
doc03 = pd.read_csv(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\data.csv’)
显示结果为：
在这里插入图片描述

在这里插入图片描述

导出文件

#导出文件使用to_csv(filepath,sep=’,’,index = True,header = True)函数语法
#index判断是否导出行序号，header判断是否导出列名,默认为True
dict01 = {
‘name’:[‘joe’,‘susan’,‘tom’],
‘age’:[18,17,18],
‘id’:[‘1001’,‘1002’,‘1003’]
}
df01 = pd.DataFrame(dict01)
doc04 = df01.to_csv(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\datashuchu.csv’)
doc05 = df01.to_csv(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\datashuchu2.csv’,
index = False,header = False)
结果为：
在这里插入图片描述

重复值处理

#重复值处理使用drop_duplicates()
doc06 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\dataduplicates.xlsx’)
doc07 = doc06.drop_duplicates()
结果显示：
在这里插入图片描述

在这里插入图片描述

空格值处理

#strip函数会清除字符型数据左右的空格，strip（）
doc08 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\datastrip.xlsx’)
doc09 = doc08[‘name’].str.strip()
doc08[‘name’] = doc09

在这里插入图片描述

#数据字段的抽取
#字段抽取就是根据已知列数据的开始和结束位置，抽取出新的列，字段截取函数slice（start，end）
doc03 = pd.read_csv(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\data.csv’)
#1、转换为字符串
lenth1 = doc03[‘tel’].astype(str)
doc03[‘tel’] = lenth1
#2、字段抽取
bands = doc03[‘tel’].str.slice(0,3)
areas = doc03[‘tel’].str.slice(3,7)
nums = doc03[‘tel’].str.slice(7,11)
在这里插入图片描述

数据合并

#数据合并是指将结构相同的数据框，合并成一个数据框
df01 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\concat.xlsx’)
type(df01)
df02 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\concat2.xlsx’)
type(df02)
df = pd.concat([df01,df02])
在这里插入图片描述

字段匹配

#字段匹配是指不同结构的数据框，按照一定的条件合并
#匹配函数merge（x,y,left_on,right_on）
#x代表第一个数据DataFrame y代表第二个 left_on是第一个数据框用于匹配的列
#right_on是第二个数据框用于匹配的列返回值是DataFrame
df01 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\merge.xlsx’)
type(df01)
df02 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\merge2.xlsx’)
type(df02)
dfnow = pd.merge(df01,df02,left_on = ‘id’,right_on = ‘id’)
在这里插入图片描述