在进行后面数据清理之前,需要提前安装和导入pandas库进行使用安装命令有两个
####有pip的直接可以使用pip安装
pip install pandas
####也可以使用conda命令安装
conda install pandas
1.创建series对象
####先引入pandas库
import pandas as pd
pd.Series(数据的形式字典或者列表,标签index)
pd.Series(['a','b'],index=['a','b'])
和Python一样,也可以使用下标和切片
2.增加删除修改排序筛选
(1) 增加:append()方法
(2)删除:drop()方法
(3)修改:通过命名的标签直接进行修改,例如:对象['需要修改的标签']=修改什么
(4)排序:sort_values()#默认是升序,如果指定降序,需要ascending=Flase
(5)筛选:直接使用大于小于等于进行条件判断进行筛选
3.DataFrame对象的创建使用及索引切片
pd.DataFrame('a':['a1','a2'],'b':['b1','b2'])也可以根据字典的样式来进行创建对象
对象.index 返回行标签信息
对象.columns 返回列标签信息
对象.values 返回元素值的信息,输出结果是一个二维数组
对象.dtypes 返回元素的数据类型
对象.T 行列数据进行转换相互交换
对象,shape[0] 返回存储元素的行数
对象.shape[1] 返回存储元素的列数
对象.head() 输出前五行元素
对象.tail() 输出后五行元素
对象.info() 输出完整信息,包括行列标签,数据类型,是否有空值,占用内存大小等
可以使用列表签获取当前列的所有数据,行标签需要使用行索引进行使用
[1:3]通过切片获取第二行和第三行数据
loc[]基于标签所以,通过标签获取相应数据
iloc[]基于下标索引,通过下标获取相关数据
4.DataFrame对象增加删除修改排序
(1)增加:loc[]方法最后增加一行数据,例如:对象.loc[6]=['a','b]
append()方法可以合并两个对象例如:对象1.append(需要合并的另一个对象,ignore_index=True)
增加列:insert()方法例如:对象.insert(位置,列标签,数据,allow_duplicates)最后这个是是否允许列明重复
(2)删除:drop()方法例如:drop(删除行还是列行是切片列是标签名,axis默认是0删除行指定1删除列)
(3)修改:loc()方法,例如对象.loc(行切片或列名,指定相应数据)=修改后的新值)
行列标签名修改,对象.rename(index={修改前:'修改后',inplace=True}就是序号进行修改
(4)排序:sort_values(by='行或者列标签',axis=0列1行,ascending=t升序f降序默认升,inplace=True)
(5)筛选:大于小于等于
5.数据获取
(1)读写xls或者xlsx
对象.to_excel(r'路径/文件名.xls',index=Flase) 写入
对象,read_excel(r'路径')在写入路径的时候前面一定要加r,读取
(2)读写csv
对象,read_csv(r'路径')
对象.to_csv(r'路径/文件名.xls',index=Flase) 写入
读写txt,json,mysql都是read_类型文件或者to_类型文件
6.堆叠
(1)横向堆叠和纵向堆叠:对象.concat([对象1,对象2],axis=0横向1纵向默认0)
(2)主键合并数据:
对象.merge(对象1,对象2,how='左leftr,右right,内inner,外outher',on='id)