数据预处理
csdn_youth0605
这个作者很懒,什么都没留下…
展开
-
求订单等时间间隔技巧
使用dataframe.shift函数,将dataframe记录往下一行平移后,再做相减差分,再做相隔天数的统计。order_diff = grouped_user.apply(lambda x:x.order_dt - x.order_dt.shift())order_diff.head(10)order_diff.describe()(order_diff / np.timedelta...转载 2020-02-11 13:18:13 · 754 阅读 · 0 评论 -
对dataframe使用apply方法小贴士
当apply函数处理的不是单个元素,而是整个dataframe行或者列时,为保证apply方法最终返回dataframe,可以在定义操作函数返回值时,将返回值设定为与原来dataframe相同列和index的series类型。...原创 2020-02-11 12:37:50 · 534 阅读 · 0 评论 -
将dataframe中的datetime列转成月份的格式
1、先将dataframe列转成ndarray再做类型强制转换成月份为单位:user_min=user_grouped[‘min’].values.astype(‘datetime64[M]’)。2、把转换后的ndarray用pd.DataFrame方法转成dataframe类型:user_month=pd.DataFrame(user_min,columns=[‘min’])。...原创 2020-02-11 11:13:39 · 1527 阅读 · 0 评论 -
sklearn中OneHotEncoder使用注意事项——sparse参数
初始化OneHotEncoder实例时,默认sparse参数为True,编码后返回的是一个稀疏矩阵的对象,如果要使用一般要调用toarray()方法转化成array对象。若将sparse参数设置为False,则直接生成array对象,可直接使用。...原创 2019-11-18 22:02:56 · 4878 阅读 · 1 评论 -
pandas读取文件函数
read_csvread_excelread_table常用参数设置:path(路径)、sep/delimiter(分隔符)、header(默认为0,即以第一行作为列名。如果没有列名,可设置为None)、names(指定列名,可将header设成None)、index_col(用作行索引的列编号或列名。可以是单个名称/数字或有多个名称/数字组成的列表(层次化索引))...原创 2019-07-27 18:26:44 · 519 阅读 · 0 评论