自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 用户连续登录的天数

--- 表user 用户ID uid , 登录时间 log_date--- 先partition uid 按时间升序排序--- 如果连续登录,则date_sub(log_date,rn)应该相同--- 找出连续登录的最大天数select max_continue_days,uid,start_day,end_dayfrom(select uid,date_sub(log_date,rn) as log_group,count(log_date) as max_continue_days,

2021-01-24 22:20:33 740

原创 Hive自然时间

select trunc('${-1d_yyyy-MM-dd}','MM') --本月第一天,add_months(trunc('${-1d_yyyy-MM-dd}','MM'),-1) -- 上月第一天,add_months('${-1d_yyyy-MM-dd}',-1) --上月今天,'${-1d_yyyy-MM-dd}' --今天,date_sub(next_day('${-1d_yyyy-MM-dd}','MO'),7) --本周第一天...

2021-01-24 22:18:50 610

原创 含有with rollup的子表联结

select nvl(c.`月份`,'总计') as `月份`,c.`ny到访量`,d.`wl到访量`from ( --到访量--ny select substr(arrival_nanyu,1,7) as `月份` ,count(distinct clue_code) as `ny到访量` from rpt.rpt_utopia_customer_new_da where pt = '${-1d_pt}' and is_delete = 0

2021-01-24 22:18:05 168

原创 用随机森林填补缺失值

#用随机森林来填补缺失值x_missing_reg = x_missing.copy()#找出数据集中,缺失值从小到大排列的顺序,并且有了这些特征的索引,填补缺失值一定从小到大开始填补,3.3sort_index = np.argsort(x_missing_reg.isnull().sum(axis=0)).valuessort_indexfor i in sort_index: #构建新特征矩阵 df = x_missing_reg #新标签 fill

2021-01-23 17:57:54 1011

原创 特征工程

import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.impute import SimpleImputerfrom sklearn.preprocessing import StandardScalerfrom sklearn.preprocessing import OneHotEncoder第一步:剔除异常样本、重置索引、将特征与标签分离

2021-01-23 17:25:35 148

原创 pandas查询手册

drop_duplicates(subset=‘author_id’,keep=‘first’,inplace=True)subset:若该字段下样本值相同,则判为重复样本keep: first 、 last被判为重复样本的样本中,取第一个样本(first)或最后一个样本(last)作为删除重复样本后的结果inplace:是否在原dataframe进行改动...

2020-12-02 11:46:16 132

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除