pandas知识复习 (from和鲸)

VIP文章君子与时偕行

已于 2022-07-27 14:29:23 修改

阅读量2k

点赞数 4

于 2022-07-25 16:15:09 首次发布

本文链接：https://blog.csdn.net/weixin_51429926/article/details/125977109

版权

1.数据加载与存储

（1）读取 Excel 文件｜指定行（跳过）

# 读取当前目录下 某招聘网站数据.csv 文件并<font color = '#5F5FFC'>跳过前20行</font>

data=pd.read_csv("某招聘网站数据.csv",skiprows=[i for i in range(1,21)])
data

（2）读取 Excel 文件｜指定行（条件）

# 读取当前目录下 某招聘网站数据.csv 文件中全部<font color = '#5F5FFC'>偶数行</font>

data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: (x != 0) and not x % 2)

# data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: x % 2) 奇数行

（3）读取 Excel 文件｜指定列（列号）

# 读取当前目录下 某招聘网站数据.csv 文件的第 1、3、5 列

data = pd.read_csv("某招聘网站数据.csv",usecols = [0,2,4])

（4）读取 Excel 文件｜指定列（列名）

# 读取当前目录下 某招聘网站数据.csv 文件的 positionId、positionName、salary 列

data = pd.read_csv("某招聘网站数据.csv",usecols = ['positionId','positionName','salary'])

（5）读取 Excel 文件｜指定列（匹配）

"""
让我们来个更难一点的，还是读取 某招聘网站数据.csv 文件，但现在有一个 list 中包含多个字段👇

usecols = ['positionId','test','positionName', 'test1','salary']

如果 usecols 中的列名存在于 某招聘网站数据.csv 中，则读取。
"""

usecols = ['positionId', 'test', 'positionName', 'test1', 'salary']

data = pd.read_csv('某招聘网站数据.csv', usecols=lambda c: c in set(usecols))

（6）读取 Excel 文件｜指定索引

# 读取当前目录下 某招聘网站数据.csv 文件，并在读取时将 positionId 设置为索引列

data = pd.read_csv('某招聘网站数据.csv',index_col=['positionId'])

（7）读取 Excel 文件｜指定标题

#读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列，并将标题设置为 `ID、岗位名称、薪资`

data = pd.read_csv('某招聘网站数据.csv', usecols=[0,1,17],header = 0,names=['ID','岗位名称','薪资'])

（8）读取 Excel 文件｜缺失值转换

# 读取当前目录下 某招聘网站数据.csv 文件，并不将缺失值标记为 NA

data = pd.read_csv('某招聘网站数据.csv', keep_default_na=False)

（9）读取 Excel 文件｜缺失值标记

# 读取当前目录下 某招聘网站数据.csv 文件，并将[]标记为缺失值

data = pd.read_csv('某招聘网站数据.csv',na_values=['[]'])

（10）读取 Excel 文件｜忽略缺失值

# 读取当前目录下 某招聘网站数据.csv 文件，但不处理缺失值

data = pd.read_csv("某招聘网站数据.csv",na_filter=False)

（11）读取 Excel 文件｜指定格式

# 读取当前目录下 某招聘网站数据.csv 文件，并将 positionId,companyId 设置为字符串格式

data = pd.read_csv("某招聘网站数据.csv", dtype={'positionId': str,'companyId':str})

（12）读取 Excel 文件｜分块读取

# 读取当前目录下 某招聘网站数据.csv 文件，要求返回一个可迭代对象，每次读取 10 行

data = pd.read_csv("某招聘网站数据.csv", chunksize= 10)

（13）读取 txt 文件｜含中文

data = pd.read_table("TOP250.txt",encoding='gb18030')

（14）读取 HDF5 文件

data = pd.read_hdf("store_tl.h5", "table")

（15）从网页读取数据

data = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]

最低0.47元/天解锁文章

君子与时偕行

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
4
评论
pandas知识复习 (from和鲸)

代码】pandas知识复习(from和鲸)
复制链接

扫一扫

专栏目录

pandas知识复习 (from和鲸)

1.数据加载与存储

（1）读取 Excel 文件｜指定行（跳过）

（2）读取 Excel 文件｜指定行（条件）

（3）读取 Excel 文件｜指定列（列号）

（4）读取 Excel 文件｜指定列（列名）

（5）读取 Excel 文件｜指定列（匹配）

（6）读取 Excel 文件｜指定索引

（7）读取 Excel 文件｜指定标题

（8） 读取 Excel 文件｜缺失值转换

（9）读取 Excel 文件｜缺失值标记

（10）读取 Excel 文件｜忽略缺失值

（11） 读取 Excel 文件｜指定格式

（12）读取 Excel 文件｜分块读取

（13）读取 txt 文件｜含中文

（14）读取 HDF5 文件

（15）从网页读取数据

“相关推荐”对你有帮助么？

（8）读取 Excel 文件｜缺失值转换

（11）读取 Excel 文件｜指定格式