Python10-pandas整理02

最新推荐文章于 2024-04-26 20:14:44 发布

孔胖

最新推荐文章于 2024-04-26 20:14:44 发布

阅读量147

点赞数

分类专栏： python-梳理(极简版)

本文链接：https://blog.csdn.net/xiuxiuxiu666/article/details/104317018

版权

python-梳理(极简版) 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

导入外部数据统一格式：

read_x() —— x表示待导入文件的格式

导入 .xlsx文件	pd. read_excel( r"C:\users\test.xlsx") pd. read_excel("C:/users/test.xlsx")	sheet_name="sheet1"/0——指定那个sheet index_col = 0 —— 指定行索引 header = 0 —— 指定列索引 usecols = [0 , 2] ——指定导入列
导入 .csv文件	pd. read_csv(r"C:\users\test.csv")	sep = " " ——指定分隔符号，eg" "空格，\t制表符 nrows = 2 —— 读取行数 encoding = "utf-8"/"gbk"——指定编码格式
导入 .txt文件	pd. read_table(……)	sep = ',' —— 需要指明分隔符
导入 .sql文件	pd. read_sql(sql, con) #sql为查询语句；con为连接	具体备注见下

备注:

1.sql数据：第一步：将Python与数据库相连第二步：利用Python执行sql查询语句

#导入pymysql模块
import pymysql

#创建连接
eng = pymysql.connect(host='localhost',user='user','password'='passwd',db='db',charset='utf8')

# user:用户名
# password:密码
# host：数据库地址/本机使用localhost
# db：数据库名
# charset：数据库编码，一般为utf-8

#连接好后
pd.read_sql(sql,con)

**************************************************************************
sql = "SELECT * FROM talbe1"
eng = pymysql.connect("118.190.120.310",'zhangjh','123456','test',charset='utf8')
df = pd.read_sql(sql,eng)

2.文件路径包含中文——通过设置engine参数

eg: df1 = pd.read_csv(r"C\users\新建文件夹\test.csv", enginge = "python", encoding="utf-8-sig")

解析语言改为Python，编码格式为utf-8-sig/gbk

熟悉数据的常用函数

.head() —— 预览前几行

.shape() —— 获取数据表大小注意：不会把行索引和列索引算在内

.info() —— 获取数据类型

.describe() —— 可以获取所有数值字段的分布值(均值、最值、方差等)

导出数据：

导出为.xlsx格式

to_excel()

df.to_excel(excel_writer = r"C:\user\desktop\blabla.xlsx", sheet_name="测试文档", index=True)

设置要导出的列 columns 设置编码格式 encoding="utf-8"

缺失值处理 na_rep=0 无穷值处理 inf_rep=0

df.to_excel(excel_writer = r"C:\user\desktop\blabla.xlsx", sheet_name="测试文档", index=True, encoding="uft-8", na_rep=0,inf_rep=0)

将文件导出到多个sheet

用到excelwriter()

#excelpath为文件要存放的路径
writer = pd.ExcelWriter(excelpath, engine="xlsxwriter")

#分别将表df1，df2，df3写入Excel中的sheet1，sheet2，sheet3并命名为表1、表2、表3
df1.to_excel(writer,sheet_name = "表1")
df2.to_excel(writer,sheet_name = "表2")
df3.to_excel(writer,sheet_name = "表3")

#保存写入内容
writer.save()

导出为.csv格式

to_csv()

df.to_csv(path_or_buf = r"C:\user\desktop\blabla.csv", index=True, columns=['bla1','bla2'],sep=',', na_rep=0,inf_rep=0,encoding="utf-8-sig")

多了一个可以设置分隔符 sep=',' 空格等编码格式一般为 "utf-8-sig"/'gbk' utf-8-sig防止中文乱码

important：

https://www.jianshu.com/p/ab0c62ee002b

读取文件时的表头设置

当首行没有字段时，headers=None，names=['起的字段名']

孔胖

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python10-pandas整理02

导入外部数据统一格式：read_x() —— x表示待导入文件的格式导入.xlsx文件 pd.read_excel(r"C:\users\test.xlsx") pd.read_excel("C:/users/test.xlsx") sheet_name="sheet1"/0——指定那个sheet ind...
复制链接

扫一扫

专栏目录