kaggle上遇到的各种框架及其方法

最新推荐文章于 2022-04-18 23:10:55 发布

zhangwx95

最新推荐文章于 2022-04-18 23:10:55 发布

阅读量244

点赞数

分类专栏：机器学习框架

本文链接：https://blog.csdn.net/zhangwx95/article/details/96992947

版权

机器学习框架专栏收录该内容

0 篇文章 0 订阅

订阅专栏

没有先后顺序，遇到什么记什么

pandas
-pandas.DataFrame.replace
-pandas.DataFrame.groupby
-pandas.DataFrame.merge
-pandas.DataFrame.pivot_table
numpy
matplotlib
sns

pandas

pandas.DataFrame.replace

replace文档

DataFrame.replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method=‘pad’)

eg: regex正则表达 /// inplace对源数据处理
rating.rating.replace({-1: np.nan}, regex=True, inplace = True)

pandas.DataFrame.groupby

groupby文档

DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

eg:
anime.groupby([“type”]).size()

pandas.DataFrame.merge

merge文档

DataFrame.merge(self, right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(’_x’, ‘_y’), copy=True, indicator=False, validate=None)

left_on:要在左侧DataFrame中连接的列级或索引级别名称。也可以是左数据帧长度的数组或数组列表
right_on ：要在右侧DataFrame中连接的列级或索引级别名称。也可以是右侧DataFrame长度的数组或数组列表
suffixes:分别应用于左侧和右侧的重叠列名称,默认（‘_x’,’_y’）

eg:merged = rating.merge(anime_tv, left_on = ‘anime_id’, right_on = ‘anime_id’, suffixes= [’_user’, ‘’])

pandas.DataFrame.pivot_table

透视表 pivot_table 文档

DataFrame.pivot_table（self，values = None，index = None，columns = None，aggfunc =‘mean’，fill_value = None，margin = False，dropna = True，margins_name =‘All’，observed = False )

aggfunc:可添加处理函数
“columns（列）”和“values（值）”的使用。记住，变量“columns（列）”是可选的，它提供一种额外的方法来分割你所关心的实际值。然而，聚合函数aggfunc最后是被应用到了变量“values”中你所列举的项目上

eg:
piv = merged_sub.pivot_table(index=[‘user_id’], columns=[‘name’], values=‘user_rating’)