python入门 -文件读写和数据清洗

本文介绍了Python中使用pandas进行文件操作,包括csv和excel文件的读写,并详细阐述了数据清洗的多个步骤,如数据去重、删除空值、删除行和列、重置索引、统计缺失值以及排序和修改列名的方法。
摘要由CSDN通过智能技术生成

一、文件操作

  1. pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL
  2. 使用read_csv方法读取,结果为dataframe格式
  3. 在读取csv文件时,文件名称尽量是英文
  4. 读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030等
  5. 使用to_csv方法快速保存

1.1 csv文件读写

读取文件,以下两种方式:

import pandas as pd

a 使用pandas读入需要处理的表格及sheet页

df = pd.read_csv("test.csv",sheet_name='sheet1') #默认是utf-8编码

b 或者使用with关键字

    #按行遍历
    for row in df:
        #修正
        row = row.replace('阴性','0').replace('00.','0.')
        ...
        print(row)

将处理后的结果写入新表

#建议用utf-8编码或者中文gbk编码,默认是utf-8编码,index=False表示不写出行索引
df.to_csv('df_new.csv',encoding='utf-8',index=False) 

1.2 excel文件读写

a 读入需要处理的表格及sheet页

df = pd.read_excel('测试.xlsx',sheet_name='test')  
df = pd.read_excel(r'测试.xlsx') #默认读入第一个sheet

b 只需要某几列,可以使用usecols参数

df = pd.read_excel('测试.xlsx',usecols=[5,6,7,8]) #读入5至8列 注意[5:8]会报错 ,usecols是列表参数,不支持切片写法

将处理后的结果写入新表

<
  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值