Python10-pandas整理02

导入外部数据统一格式:
 
read_x()  ——  x表示待导入文件的格式
 
导入 .xlsx文件
pd. read_excel( r"C:\users\test.xlsx")
pd. read_excel("C:/users/test.xlsx")
sheet_name="sheet1"/0——指定那个sheet
index_col = 0  ——  指定行索引
header = 0 —— 指定列索引
usecols = [0 , 2] ——指定导入列
导入 .csv文件
pd. read_csv(r"C:\users\test.csv")
sep = " " ——指定分隔符号,eg" "空格,\t制表符
nrows = 2 —— 读取行数
encoding = "utf-8"/"gbk"——指定编码格式
导入 .txt文件
pd. read_table(……)
sep = ',' —— 需要指明分隔符
导入 .sql文件
pd. read_sql(sql, con) 
#sql为查询语句;con为连接
具体备注见下

 

备注:

1.sql数据  :  第一步:将Python与数据库相连   第二步 : 利用Python执行sql查询语句

#导入pymysql模块
import pymysql

#创建连接
eng = pymysql.connect(host='localhost',user='user','password'='passwd',db='db',charset='utf8')

# user:用户名
# password:密码
# host:数据库地址/本机使用localhost
# db:数据库名
# charset:数据库编码,一般为utf-8

#连接好后
pd.read_sql(sql,con)

**************************************************************************
sql = "SELECT * FROM talbe1"
eng = pymysql.connect("118.190.120.310",'zhangjh','123456','test',charset='utf8')
df = pd.read_sql(sql,eng)

 

2.文件路径包含中文——通过设置engine参数

eg: df1 = pd.read_csv(r"C\users\新建文件夹\test.csv", enginge = "python", encoding="utf-8-sig")

解析语言改为Python,编码格式为utf-8-sig/gbk

 


熟悉数据的常用函数

 

.head()  ——  预览前几行

.shape() ——  获取数据表大小  注意:不会把行索引和列索引算在内

.info() —— 获取数据类型

.describe() —— 可以获取所有数值字段的分布值(均值、最值、方差等)

 


导出数据:

  • 导出为.xlsx格式

            to_excel() 

df.to_excel(excel_writer = r"C:\user\desktop\blabla.xlsx", sheet_name="测试文档", index=True)

            设置要导出的列  columns   设置编码格式  encoding="utf-8"  

            缺失值处理  na_rep=0         无穷值处理 inf_rep=0     

df.to_excel(excel_writer = r"C:\user\desktop\blabla.xlsx", sheet_name="测试文档", index=True, encoding="uft-8", na_rep=0,inf_rep=0)

            将文件导出到多个sheet

用到excelwriter()

#excelpath为文件要存放的路径
writer = pd.ExcelWriter(excelpath, engine="xlsxwriter")

#分别将表df1,df2,df3写入Excel中的sheet1,sheet2,sheet3并命名为表1、表2、表3
df1.to_excel(writer,sheet_name = "表1")
df2.to_excel(writer,sheet_name = "表2")
df3.to_excel(writer,sheet_name = "表3")

#保存写入内容
writer.save()

  

  • 导出为.csv格式

            to_csv() 

df.to_csv(path_or_buf = r"C:\user\desktop\blabla.csv", index=True, columns=['bla1','bla2'],sep=',', na_rep=0,inf_rep=0,encoding="utf-8-sig")

           多了一个可以设置分隔符    sep=',' 空格等   编码格式一般为  "utf-8-sig"/'gbk'  utf-8-sig防止中文乱码

 

important:

https://www.jianshu.com/p/ab0c62ee002b

 

读取文件时的表头设置

 

当首行没有字段时,headers=None,names=['起的字段名']

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值