QtenYoung-CSDN博客

原创用户连续登录的天数

--- 表user 用户ID uid ，登录时间 log_date--- 先partition uid 按时间升序排序--- 如果连续登录，则date_sub(log_date,rn)应该相同--- 找出连续登录的最大天数select max_continue_days,uid,start_day,end_dayfrom(select uid,date_sub(log_date,rn) as log_group,count(log_date) as max_continue_days,

2021-01-24 22:20:33 740

原创 Hive自然时间

select trunc('${-1d_yyyy-MM-dd}','MM') --本月第一天,add_months(trunc('${-1d_yyyy-MM-dd}','MM'),-1) -- 上月第一天,add_months('${-1d_yyyy-MM-dd}',-1) --上月今天,'${-1d_yyyy-MM-dd}' --今天,date_sub(next_day('${-1d_yyyy-MM-dd}','MO'),7) --本周第一天...

2021-01-24 22:18:50 610

原创含有with rollup的子表联结

select nvl(c.`月份`,'总计') as `月份`,c.`ny到访量`,d.`wl到访量`from ( --到访量--ny select substr(arrival_nanyu,1,7) as `月份` ,count(distinct clue_code) as `ny到访量` from rpt.rpt_utopia_customer_new_da where pt = '${-1d_pt}' and is_delete = 0

2021-01-24 22:18:05 168

原创用随机森林填补缺失值

#用随机森林来填补缺失值x_missing_reg = x_missing.copy()#找出数据集中，缺失值从小到大排列的顺序,并且有了这些特征的索引,填补缺失值一定从小到大开始填补,3.3sort_index = np.argsort(x_missing_reg.isnull().sum(axis=0)).valuessort_indexfor i in sort_index: #构建新特征矩阵 df = x_missing_reg #新标签 fill

2021-01-23 17:57:54 1011

原创特征工程

import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.impute import SimpleImputerfrom sklearn.preprocessing import StandardScalerfrom sklearn.preprocessing import OneHotEncoder第一步：剔除异常样本、重置索引、将特征与标签分离

2021-01-23 17:25:35 148

原创 pandas查询手册

drop_duplicates(subset=‘author_id’,keep=‘first’,inplace=True)subset：若该字段下样本值相同，则判为重复样本keep: first 、 last被判为重复样本的样本中，取第一个样本（first）或最后一个样本（last）作为删除重复样本后的结果inplace:是否在原dataframe进行改动...

2020-12-02 11:46:16 132

weixin_44931767的博客

原创用户连续登录的天数

原创 Hive自然时间

原创含有with rollup的子表联结

原创用随机森林填补缺失值

原创特征工程

原创 pandas查询手册

空空如也

空空如也

原创 用户连续登录的天数

原创 Hive自然时间

原创 含有with rollup的子表联结

原创 用随机森林填补缺失值

原创 特征工程

原创 pandas查询手册

空空如也

空空如也

原创用户连续登录的天数

原创含有with rollup的子表联结

原创用随机森林填补缺失值

原创特征工程