python学习心得2

最新推荐文章于 2021-08-24 11:25:17 发布

MangoT_T

最新推荐文章于 2021-08-24 11:25:17 发布

阅读量287

点赞数

分类专栏：学习笔记文章标签： unique split lambda cut 布尔筛选

本文链接：https://blog.csdn.net/weixin_44064888/article/details/99706737

版权

学习笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

今天写作业的时候有很多语法需要记录一下

np.unique()
去重函数，返回一个list，比如我想知道在一个dataframe里某一列中有多少个分类，通过这个分类计算每一类的个数，如果用set函数返回的是一个元祖，是不可分的，这样画图的时候就不能直接当x，如果用list转换成列表，又会打破原来的顺序，所以直接用np.unique函数非常方便
str.split(’,’,expand=True)
这个相当于excel里的分列，expand的参数让分割出来的数据独立成为一列，非常方便！！
lambda x: x.fillna(x.mean().round(2))
对缺失值以平均值填充，并且保留两位小数
结合apply函数可以对某一列的缺失值进行填充，另外也可以对不同类中的缺失值用该类的平均值进行填充，比如用groupby(by=‘性别’).apply(lambda x: x.fillna(x.mean().round(2)))，这样就是用男的平均值去填充男的缺失值，女的平均值填充女的平均值
np.argmax(列名.value_counts())
这个函数可以求出某一列中出现次数最大的元素
pd.cut(列名,bins,labels=group_names)
可以将某列函数进行分箱，例如bins=[1,18,30,45,60,100]，就是将这一列的数字分别分到1-18,19-30,31-45,46-60,61-100的类中，labels是为每一类进行命名，比如1-18是少年组，19-30是青年…
pd.get_dummies(列名,prefix=‘Age’)
one-hot编码，prefix表示在列名前加上‘Age’
df_order_data[df_order_data[‘客户地址’].str.contains(‘区’)]
比如有一列客户地址，格式为XX省XX市XX区，有一些不合格的数据，比如XX省XX市XX路，XX省XX市XX省等，要把这些不规范的记录去掉，利用bool条件去筛选，这里确定是包含‘区’的才行，所以判断内容里是否包含‘区’字，True的话保留，False的话删除

MangoT_T

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习心得2

今天写作业的时候有很多语法需要记录一下np.unique()去重函数，返回一个list，比如我想知道在一个dataframe里某一列中有多少个分类，通过这个分类计算每一类的个数，如果用set函数返回的是一个元祖，是不可分的，这样画图的时候就不能直接当x，如果用list转换成列表，又会打破原来的顺序，所以直接用np.unique函数非常方便str.split(’,’,expand=True)...
复制链接

扫一扫