- 博客(6)
- 收藏
- 关注
原创 用户连续登录的天数
--- 表user 用户ID uid , 登录时间 log_date--- 先partition uid 按时间升序排序--- 如果连续登录,则date_sub(log_date,rn)应该相同--- 找出连续登录的最大天数select max_continue_days,uid,start_day,end_dayfrom(select uid,date_sub(log_date,rn) as log_group,count(log_date) as max_continue_days,
2021-01-24 22:20:33 740
原创 Hive自然时间
select trunc('${-1d_yyyy-MM-dd}','MM') --本月第一天,add_months(trunc('${-1d_yyyy-MM-dd}','MM'),-1) -- 上月第一天,add_months('${-1d_yyyy-MM-dd}',-1) --上月今天,'${-1d_yyyy-MM-dd}' --今天,date_sub(next_day('${-1d_yyyy-MM-dd}','MO'),7) --本周第一天...
2021-01-24 22:18:50 610
原创 含有with rollup的子表联结
select nvl(c.`月份`,'总计') as `月份`,c.`ny到访量`,d.`wl到访量`from ( --到访量--ny select substr(arrival_nanyu,1,7) as `月份` ,count(distinct clue_code) as `ny到访量` from rpt.rpt_utopia_customer_new_da where pt = '${-1d_pt}' and is_delete = 0
2021-01-24 22:18:05 168
原创 用随机森林填补缺失值
#用随机森林来填补缺失值x_missing_reg = x_missing.copy()#找出数据集中,缺失值从小到大排列的顺序,并且有了这些特征的索引,填补缺失值一定从小到大开始填补,3.3sort_index = np.argsort(x_missing_reg.isnull().sum(axis=0)).valuessort_indexfor i in sort_index: #构建新特征矩阵 df = x_missing_reg #新标签 fill
2021-01-23 17:57:54 1011
原创 特征工程
import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.impute import SimpleImputerfrom sklearn.preprocessing import StandardScalerfrom sklearn.preprocessing import OneHotEncoder第一步:剔除异常样本、重置索引、将特征与标签分离
2021-01-23 17:25:35 148
原创 pandas查询手册
drop_duplicates(subset=‘author_id’,keep=‘first’,inplace=True)subset:若该字段下样本值相同,则判为重复样本keep: first 、 last被判为重复样本的样本中,取第一个样本(first)或最后一个样本(last)作为删除重复样本后的结果inplace:是否在原dataframe进行改动...
2020-12-02 11:46:16 132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人