python数据分析(一)

数据存在形式

在这里插入图片描述

导入文件

#导入文件
#有三种导入格式
#read_table(‘文件路径’,names=[‘设置columns’],sep=’,’) 通常导入txt格式数据
#read_excel() 导入xlsx、xls格式数据
#read_csv() 导入csv格式数据
import pandas as pd
doc01 = pd.read_table(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\data.txt’
,names = [‘名字’,‘年龄’,‘语文’,‘数学’,‘英语’],sep=’,’)
doc02 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\data.xlsx’)
doc03 = pd.read_csv(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\data.csv’)
显示结果为:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

导出文件

#导出文件使用to_csv(filepath,sep=’,’,index = True,header = True)函数语法
#index判断是否导出行序号,header判断是否导出列名,默认为True
dict01 = {
‘name’:[‘joe’,‘susan’,‘tom’],
‘age’:[18,17,18],
‘id’:[‘1001’,‘1002’,‘1003’]
}
df01 = pd.DataFrame(dict01)
doc04 = df01.to_csv(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\datashuchu.csv’)
doc05 = df01.to_csv(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\datashuchu2.csv’,
index = False,header = False)
结果为:
在这里插入图片描述
在这里插入图片描述

重复值处理

#重复值处理使用drop_duplicates()
doc06 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\dataduplicates.xlsx’)
doc07 = doc06.drop_duplicates()
结果显示:
在这里插入图片描述

在这里插入图片描述

空格值处理

#strip函数会清除字符型数据左右的空格,strip()
doc08 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\datastrip.xlsx’)
doc09 = doc08[‘name’].str.strip()
doc08[‘name’] = doc09

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
#数据字段的抽取
#字段抽取就是根据已知列数据的开始和结束位置,抽取出新的列,字段截取函数slice(start,end)
doc03 = pd.read_csv(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\data.csv’)
#1、转换为字符串
lenth1 = doc03[‘tel’].astype(str)
doc03[‘tel’] = lenth1
#2、字段抽取
bands = doc03[‘tel’].str.slice(0,3)
areas = doc03[‘tel’].str.slice(3,7)
nums = doc03[‘tel’].str.slice(7,11)
在这里插入图片描述
在这里插入图片描述

数据合并

#数据合并是指将结构相同的数据框,合并成一个数据框
df01 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\concat.xlsx’)
type(df01)
df02 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\concat2.xlsx’)
type(df02)
df = pd.concat([df01,df02])
在这里插入图片描述

字段匹配

#字段匹配是指不同结构的数据框,按照一定的条件合并
#匹配函数merge(x,y,left_on,right_on)
#x代表第一个数据DataFrame y代表第二个 left_on是第一个数据框用于匹配的列
#right_on是第二个数据框用于匹配的列 返回值是DataFrame
df01 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\merge.xlsx’)
type(df01)
df02 = pd.read_excel(‘D:\pythonworkspace\ShanxiAgriculturalUniversity\pandas\merge2.xlsx’)
type(df02)
dfnow = pd.merge(df01,df02,left_on = ‘id’,right_on = ‘id’)
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值