在pandas模块中读取CSV文件和Excel文件
导入pandas模块
#导入pandas模块
import pandas as pd
读取csv文件
必选
pd.read_csv("文件名路径")
可选配置项如下:
encoding='utf-8' | 防止中文乱码 |
index_col='列名a' | 以列名a为索引 |
usecols=['列名b','列名c','列名d',...] | 选入的列名 |
header=None,names['变量名b','变量名c','变量名d',...] | 设置表头,否则默认第一行是表头 |
sep="::" | 设置分割符号是"::",默认是"," |
#读取csv文件
import pandas as pd
data=pd.read_csv("/Users/***/数据文件名.csv")#基础
data=pd.read_csv("/Users/***/数据文件名.csv",encoding="utf-8")#防乱码
data=pd.read_csv("/Users/***/数据文件名.csv",index_col="order_id")#指定索引
data=pd.read_csv("/Users/***/数据文件名.csv",usecols=["列名1","列名2"])#指定选入观测的列
data=pd.read_csv("/Users/***/数据文件名.csv",header=None,names=["变量名1","变量名2","变量名3"..."变量名n"])#指定变量名
ratings=pd.read_csv("/Users/***/数据文件名.csv",sep="::")#设置分隔符号
导出csv文件
必选
pd.to_csv("文件名路径")
index=False | 不写入索引列 |
usecols=["列名1","列名2"] | 导出特定列 |
encoding="utf-8-sig" | 防止中文乱码 |
#导出csv文件,导出数据框data2
data2.to_csv("/Users/***/数据文件名.csv")
data2.to_csv("/Users/***/数据文件名.csv",index=False)#不写入索引列
data2.to_csv("/Users/***/数据文件名.csv",usecols=["列名1","列名2"])##指定导出列
data2.to_csv("/Users/***/数据文件名.csv",encoding="utf-8-sig")##防止乱码
读取excel文件
读取Excel文件前,需要先安装一个用于读取Excel文件的辅助工具:xlrd 模块用于读取.xls和.xlsx文件。
在终端输入代码即可
pip install openpyxl
pip install xlrd==1.2.0
如果电脑中同时存在Python 2 和 3,可能需要改成pip3 install xlrd==1.2.0
必选
pd.read_excel("路径",sheet_name='sheet名称')
#读取excel文件
#在终端输入代码,pip install xlrd==1.2.0 即可安装 xlrd 模块
import pandas as pd
data=pd.read_excel("/Users/***/2019年4月销售订单.xlsx",sheet_name="销售订单数据")#选择excel的某个sheet
可选参数略,参考csv
读取数据样例
读取前几行苏剧
dataframe.head(n)
import pandas as pd
df=pd.read_csv("路径")
top_5=df.head()#默认读取前5行
top_100=df.head(100)#读取前100行