Python可以读取不同格式的文件,下面简单来介绍一下:
1、使用read_excel或read_csv读取文件,若在路径前加r,使用“\”
import pandas as pd
# 在路径前加r,使用“\”
df = pd.read_excel(r'C:\Users\merit\Desktop\测试.xlsx')
# 导入.csv文件,以“,”为分隔符
data=pd.read_csv(r'C:\Users\merit\Desktop\测试.csv', sep=",")
# 导入.csv文件,以“ 空白”为分隔符
data=pd.read_csv(r'C:\Users\merit\Desktop\测试.csv', sep=" ")
2、使用read_excel或read_csv读取文件,若在路径前面不加r,使用“/”
import pandas as pd
# 在路径前面不加r,使用“/”
df = pd.read_excel('C:/Users/merit/Desktop/测试.xlsx')
# .xlsx文件有多个Sheet,可以通过设定sheet_name参数来指定要导入的sheet文件。
df = pd.read_excel("C:/Users/merit/Desktop/测试.xlsx",sheet_name="Sheet1")
# 除可以指定具体Sheet的名字,还可以传入Sheet的顺序,从0开始。
df = pd.read_excel("C:/Users/merit/Desktop/测试.xlsx",sheet_name=0)
3 、可使用read_table()导入csv文件
data=pd.read_table(r'C:\Users\merit\Desktop\测试.csv',sep=",")
4、读取文件,同时指定索引列。
行索引使用从0开始的默认索引列,可以通过设置index_col参数来设置。
# 行索引:每一行的索引
# index_col表示用.xlsx文件中的第几列做行索引,从0开始计数。
df = pd.read_excel("C:/Users/merit/Desktop/测试.xlsx",sheet_name=0,index_col=0)
# 列索引:每一列的索引,列标签。
# 使用第一行作为列索引
df = pd.read_excel("C:/Users/merit/Desktop/测试.xlsx",sheet_name=0,header=0)
# 使用第二行作为列索引
df = pd.read_excel("C:/Users/merit/Desktop/测试.xlsx",sheet_name=0,header=1)
# 使用默认从0开始的数作为列索引,从第一列开始从0编号:0、1、2、3......
df = pd.read_excel("C:/Users/merit/Desktop/测试.xlsx",sheet_name=0,header=None)
5、指定导入列
有时候本地文件列太多,而我们又不需要那么多列,我们可以通过设定usecols参数来制定要导入的列。
# 导入第一列,,usecols当中[]填写数字为0,则只输入0列,填3只输入第3列内容。
df = pd.read_excel("C:/Users/merit/Desktop/测试.xlsx",usecols=[0])
6、导入指定行
# 指定读取行数,只需要设置nrows参数即可。读取3行数据
data=pd.read_csv(r'C:\Users\merit\Desktop\测试.csv',sep=",",nrows=3)
7、engine 指定
当文件名存在中文或者路径包含中文时,使用Python读取可能会报错,这时需要设置engine参数来消除这个错误。
data=pd.read_csv(r'C:\Users\merit\ceshi.csv',engine="python",encoding="utf-8")
8、数据库读取
Python链接数据库,导入SQL文件。Python连接数据库方法。首先导入pymysql模块创建链接;
user:用户名
password:密码
host:数据库地址/本机使用localhost
db:数据库名
charset:数据库编码,一般为UTF-8
# # Python调取数据库当中,数据表的语句。
# 参数sql是需要执行的SQL;参数col是第一步创建好的数据库连接,即eng
import pymysql
eng = pymysql.connect(host='XXXXX',
user='XXXXX',
password='XXXXX',
db='XXXXX',
charset='utf8')
sql="select * from df1_csv"
df = pd.read_sql(sql,eng)
9、指定编码格式
指定编码格式,Python用的最多的两种编码格式是UTF-8和gbk,默认编码格式是UTF-8。
如果是CSV UTF-8(逗号分隔)格式的文件,那么导入的时候需要加encoding参数,也可以不加encoding参数,默认UTF-8;另一种格式encoding="gbk"。
# 导入UTF-8格式CSV文件
data=pd.read_csv(r'C:\Users\merit\Desktop\测试.csv',encoding="utf-8")
# 导入gbk格式CSV文件
data=pd.read_csv(r'C:\Users\merit\Desktop\测试.csv',encoding="gbk")
以上就是比较常见的Python数据读取方式,还有哪些缺失可以留言告诉我哦!