pandas知识复习 (from和鲸)

1.数据加载与存储

        (1)读取 Excel 文件|指定行(跳过) 

# 读取当前目录下 某招聘网站数据.csv 文件并<font color = '#5F5FFC'>跳过前20行</font>

data=pd.read_csv("某招聘网站数据.csv",skiprows=[i for i in range(1,21)])
data

        (2)读取 Excel 文件|指定行(条件)

# 读取当前目录下 某招聘网站数据.csv 文件中全部<font color = '#5F5FFC'>偶数行</font>

data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: (x != 0) and not x % 2)

# data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: x % 2) 奇数行

         (3)读取 Excel 文件|指定列(列号)

# 读取当前目录下 某招聘网站数据.csv 文件的第 1、3、5 列

data = pd.read_csv("某招聘网站数据.csv",usecols = [0,2,4])

        (4)读取 Excel 文件|指定列(列名)

# 读取当前目录下 某招聘网站数据.csv 文件的 positionId、positionName、salary 列

data = pd.read_csv("某招聘网站数据.csv",usecols = ['positionId','positionName','salary'])

        (5)读取 Excel 文件|指定列(匹配)

"""
让我们来个更难一点的,还是读取 某招聘网站数据.csv 文件,但现在有一个 list 中包含多个字段👇

usecols = ['positionId','test','positionName', 'test1','salary']

如果 usecols 中的列名存在于 某招聘网站数据.csv 中,则读取。
"""

usecols = ['positionId', 'test', 'positionName', 'test1', 'salary']

data = pd.read_csv('某招聘网站数据.csv', usecols=lambda c: c in set(usecols))

        (6)读取 Excel 文件|指定索引

# 读取当前目录下 某招聘网站数据.csv 文件,并在读取时将 positionId 设置为索引列

data = pd.read_csv('某招聘网站数据.csv',index_col=['positionId'])

        (7)读取 Excel 文件|指定标题

#读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列,并将标题设置为 `ID、岗位名称、薪资`

data = pd.read_csv('某招聘网站数据.csv', usecols=[0,1,17],header = 0,names=['ID','岗位名称','薪资'])

       (8) 读取 Excel 文件|缺失值转换

# 读取当前目录下 某招聘网站数据.csv 文件,并不将缺失值标记为 NA

data = pd.read_csv('某招聘网站数据.csv', keep_default_na=False)

        (9)读取 Excel 文件|缺失值标记

# 读取当前目录下 某招聘网站数据.csv 文件,并将[]标记为缺失值

data = pd.read_csv('某招聘网站数据.csv',na_values=['[]'])

        (10)读取 Excel 文件|忽略缺失值

# 读取当前目录下 某招聘网站数据.csv 文件,但不处理缺失值

data = pd.read_csv("某招聘网站数据.csv",na_filter=False)

       (11) 读取 Excel 文件|指定格式

# 读取当前目录下 某招聘网站数据.csv 文件,并将 positionId,companyId 设置为字符串格式

data = pd.read_csv("某招聘网站数据.csv", dtype={'positionId': str,'companyId':str}) 

        (12)读取 Excel 文件|分块读取

# 读取当前目录下 某招聘网站数据.csv 文件,要求返回一个可迭代对象,每次读取 10 行

data = pd.read_csv("某招聘网站数据.csv", chunksize= 10)

        (13)读取 txt 文件|含中文

data = pd.read_table("TOP250.txt",encoding='gb18030')

        (14)读取 HDF5 文件

data = pd.read_hdf("store_tl.h5", "table")

        (15)从网页读取数据

data = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]
  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值