使用Python进行数据预处理的知识点合集( jupyter版)

凝绝

已于 2024-04-18 10:46:55 修改

阅读量671

点赞数 12

文章标签： python jupyter 大数据

于 2024-04-18 09:49:01 首次发布

本文链接：https://blog.csdn.net/weixin_73482979/article/details/137902728

版权

本文介绍了如何在Python中安装和使用pandas库，包括Series和DataFrame对象的创建、增删改查、排序筛选、数据读写以及堆叠和主键合并等核心数据操作方法。

摘要由CSDN通过智能技术生成

在进行后面数据清理之前,需要提前安装和导入pandas库进行使用安装命令有两个

####有pip的直接可以使用pip安装
pip install pandas
####也可以使用conda命令安装
conda install pandas

1.创建series对象

####先引入pandas库
import pandas as pd
pd.Series(数据的形式字典或者列表,标签index)
pd.Series(['a','b'],index=['a','b'])

和Python一样,也可以使用下标和切片

2.增加删除修改排序筛选

(1) 增加:append()方法

(2)删除:drop()方法

(3)修改:通过命名的标签直接进行修改,例如:对象['需要修改的标签']=修改什么

(4)排序:sort_values()#默认是升序,如果指定降序,需要ascending=Flase

(5)筛选:直接使用大于小于等于进行条件判断进行筛选

3.DataFrame对象的创建使用及索引切片

pd.DataFrame('a':['a1','a2'],'b':['b1','b2'])也可以根据字典的样式来进行创建对象

对象.index 返回行标签信息

对象.columns 返回列标签信息

对象.values 返回元素值的信息,输出结果是一个二维数组

对象.dtypes 返回元素的数据类型

对象.T 行列数据进行转换相互交换

对象,shape[0] 返回存储元素的行数

对象.shape[1] 返回存储元素的列数

对象.head() 输出前五行元素

对象.tail() 输出后五行元素

对象.info() 输出完整信息,包括行列标签,数据类型,是否有空值,占用内存大小等

可以使用列表签获取当前列的所有数据,行标签需要使用行索引进行使用

[1:3]通过切片获取第二行和第三行数据

loc[]基于标签所以,通过标签获取相应数据

iloc[]基于下标索引,通过下标获取相关数据

4.DataFrame对象增加删除修改排序

(1)增加:loc[]方法最后增加一行数据,例如:对象.loc[6]=['a','b]

append()方法可以合并两个对象例如:对象1.append(需要合并的另一个对象,ignore_index=True)

增加列:insert()方法例如:对象.insert(位置,列标签,数据,allow_duplicates)最后这个是是否允许列明重复

(2)删除:drop()方法例如:drop(删除行还是列行是切片列是标签名,axis默认是0删除行指定1删除列)

(3)修改:loc()方法,例如对象.loc(行切片或列名,指定相应数据)=修改后的新值)

行列标签名修改,对象.rename(index={修改前:'修改后',inplace=True}就是序号进行修改

(4)排序:sort_values(by='行或者列标签',axis=0列1行,ascending=t升序f降序默认升,inplace=True)

(5)筛选:大于小于等于

5.数据获取

(1)读写xls或者xlsx

对象.to_excel(r'路径/文件名.xls',index=Flase) 写入

对象,read_excel(r'路径')在写入路径的时候前面一定要加r,读取

(2)读写csv

对象,read_csv(r'路径')

对象.to_csv(r'路径/文件名.xls',index=Flase) 写入

读写txt,json,mysql都是read_类型文件或者to_类型文件

6.堆叠

(1)横向堆叠和纵向堆叠:对象.concat([对象1,对象2],axis=0横向1纵向默认0)

(2)主键合并数据:

对象.merge(对象1,对象2,how='左leftr,右right,内inner,外outher',on='id)

凝绝

关注

12
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
1
评论
使用Python进行数据预处理的知识点合集( jupyter版)

(2)删除。
复制链接

扫一扫