没有先后顺序,遇到什么记什么
- pandas
-pandas.DataFrame.replace
-pandas.DataFrame.groupby
-pandas.DataFrame.merge
-pandas.DataFrame.pivot_table - numpy
- matplotlib
- sns
pandas
pandas.DataFrame.replace
replace文档DataFrame.replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method=‘pad’)
eg: regex正则表达 /// inplace对源数据处理
rating.rating.replace({-1: np.nan}, regex=True, inplace = True)
pandas.DataFrame.groupby
groupby文档DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
eg:
anime.groupby([“type”]).size()
pandas.DataFrame.merge
merge文档DataFrame.merge(self, right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(’_x’, ‘_y’), copy=True, indicator=False, validate=None)
left_on:要在左侧DataFrame中连接的列级或索引级别名称。也可以是左数据帧长度的数组或数组列表
right_on :要在右侧DataFrame中连接的列级或索引级别名称。也可以是右侧DataFrame长度的数组或数组列表
suffixes:分别应用于左侧和右侧的重叠列名称,默认(‘_x’,’_y’)
eg:merged = rating.merge(anime_tv, left_on = ‘anime_id’, right_on = ‘anime_id’, suffixes= [’_user’, ‘’])
pandas.DataFrame.pivot_table
透视表 pivot_table 文档DataFrame.pivot_table(self,values = None,index = None,columns = None,aggfunc =‘mean’,fill_value = None,margin = False,dropna = True,margins_name =‘All’,observed = False )
aggfunc:可添加处理函数
“columns(列)”和“values(值)”的使用。记住,变量“columns(列)”是可选的,它提供一种额外的方法来分割你所关心的实际值。然而,聚合函数aggfunc最后是被应用到了变量“values”中你所列举的项目上
eg:
piv = merged_sub.pivot_table(index=[‘user_id’], columns=[‘name’], values=‘user_rating’)