pandas数据读取
读写数据库数据
读
读取数据库依赖于SQLAlchemy库,真正连接数据库的是这个
进行配置数据库连接
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:root@127.0.0.1:3306/testdb?charset=utf8')
使用create_engine创建连接,这里面包含着连接数据库的信息,里面的字符串是存在格式的
'数据库+驱动://用户名:密码@host:port/库名?charset=utf8'
如果没有安装pymysql则依然是不行的,安装方法直接pip install pymysql就行了,很简单
当然只需要找到数据库和对应的驱动就行,一种数据库可以存在很多种驱动,这里不一定是pymysql
有了engine之后pandas就能通过engine进行访问数据库拿数据
import pandas as pd
print(pd.read_sql_query('show table', con=engine))
意思是查询当前库里面存在的表信息,sql语句’show table’放在参数首位,con本来是只的连接方式,这里直接使用前面已经写好的engine就行了,里面存放着连接mysql数据的信息,并且还指定了连接mysql中的哪个库
在很多框架中,连接数据库进行查询都会遇到query这个单词,以后看到这个,而且还跟数据库有关,猜也要猜是查数据库的操作
print(pd.read_sql_table('表名', con=engine))
这种方式直接查询出对应的表详情
print(pd.read_sql('sql语句', con=engine))
这种方式可以自己写原生的sql语句,想查什么查什么,方便,如果跟的是表名,直接就查询出对应表的详情
反过来,如果我们已经处理好了数据想直接写进库里面
写
写入只有一个方法to_sql
Dataframe表示的是pandas数据类型
Dataframe.to_sql('name', con=engine, if_exists='replace', index=Flase, dtype=dict(字典类型))
name是表名,if_exists='replace’表示如果写库的时候表已经存在则替换它,不存在则创建,同样存在其他的参数’fail’表示存在就不执行操作,'append’追加方式
index表示是否将索引也当成数据传进去,实际上行Dataframe中索引不算做一条数据的,默认的这个是True,这里使用Flase表示不传入
dtype,代表写入数据的类型,以字典的方式传入,列名用key表示,value就是设置的数据类型,默认None
读写文本文件
文本文件中如果是使用的字符分隔的文件则使用的是read_table
如果是csv格式的文件则使用的是read_csv
两个函数的参数都相同
pd.read_csv('文件路径', sep='分隔符号', names=[列表,表示列名], dtype={key为列名:value数据类型}, nrows=[int类型, 表示读取前多少行,默认全读])
文件存储
写文件to_csv()
pd.to_csv(path_or_buf='路径', sep='分隔符', na_rep='缺失值填充')
这三个参数就已经够用了,其他的存在默认值
读写excel
读
pd.read_excel(io='路径', sheetname='excel分表位置', header=[int类型,表示选取某行为列名], names=[列表,列名], dtype={不解释})
excel表格实际上是列名不好弄,所以经常是自己写列名
写
to_excel
pd.to_excel(参数和读相同,这里就不说了)