1.数据加载与存储
(1)读取 Excel 文件|指定行(跳过)
# 读取当前目录下 某招聘网站数据.csv 文件并<font color = '#5F5FFC'>跳过前20行</font>
data=pd.read_csv("某招聘网站数据.csv",skiprows=[i for i in range(1,21)])
data
(2)读取 Excel 文件|指定行(条件)
# 读取当前目录下 某招聘网站数据.csv 文件中全部<font color = '#5F5FFC'>偶数行</font>
data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: (x != 0) and not x % 2)
# data = pd.read_csv('某招聘网站数据.csv', skiprows=lambda x: x % 2) 奇数行
(3)读取 Excel 文件|指定列(列号)
# 读取当前目录下 某招聘网站数据.csv 文件的第 1、3、5 列
data = pd.read_csv("某招聘网站数据.csv",usecols = [0,2,4])
(4)读取 Excel 文件|指定列(列名)
# 读取当前目录下 某招聘网站数据.csv 文件的 positionId、positionName、salary 列
data = pd.read_csv("某招聘网站数据.csv",usecols = ['positionId','positionName','salary'])
(5)读取 Excel 文件|指定列(匹配)
"""
让我们来个更难一点的,还是读取 某招聘网站数据.csv 文件,但现在有一个 list 中包含多个字段👇
usecols = ['positionId','test','positionName', 'test1','salary']
如果 usecols 中的列名存在于 某招聘网站数据.csv 中,则读取。
"""
usecols = ['positionId', 'test', 'positionName', 'test1', 'salary']
data = pd.read_csv('某招聘网站数据.csv', usecols=lambda c: c in set(usecols))
(6)读取 Excel 文件|指定索引
# 读取当前目录下 某招聘网站数据.csv 文件,并在读取时将 positionId 设置为索引列
data = pd.read_csv('某招聘网站数据.csv',index_col=['positionId'])
(7)读取 Excel 文件|指定标题
#读取当前目录下 `某招聘网站数据.csv` 文件的 `positionId、positionName、salary` 列,并将标题设置为 `ID、岗位名称、薪资`
data = pd.read_csv('某招聘网站数据.csv', usecols=[0,1,17],header = 0,names=['ID','岗位名称','薪资'])
(8) 读取 Excel 文件|缺失值转换
# 读取当前目录下 某招聘网站数据.csv 文件,并不将缺失值标记为 NA
data = pd.read_csv('某招聘网站数据.csv', keep_default_na=False)
(9)读取 Excel 文件|缺失值标记
# 读取当前目录下 某招聘网站数据.csv 文件,并将[]标记为缺失值
data = pd.read_csv('某招聘网站数据.csv',na_values=['[]'])
(10)读取 Excel 文件|忽略缺失值
# 读取当前目录下 某招聘网站数据.csv 文件,但不处理缺失值
data = pd.read_csv("某招聘网站数据.csv",na_filter=False)
(11) 读取 Excel 文件|指定格式
# 读取当前目录下 某招聘网站数据.csv 文件,并将 positionId,companyId 设置为字符串格式
data = pd.read_csv("某招聘网站数据.csv", dtype={'positionId': str,'companyId':str})
(12)读取 Excel 文件|分块读取
# 读取当前目录下 某招聘网站数据.csv 文件,要求返回一个可迭代对象,每次读取 10 行
data = pd.read_csv("某招聘网站数据.csv", chunksize= 10)
(13)读取 txt 文件|含中文
data = pd.read_table("TOP250.txt",encoding='gb18030')
(14)读取 HDF5 文件
data = pd.read_hdf("store_tl.h5", "table")
(15)从网页读取数据
data = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]