商户异常下单之休眠启用检测

无论B端还是C端,当客户长期休眠后突然动用贷款或赊销额度,都需要予以预警并分析交易的真实性。通过python分析客户在不同休眠时长下的启用情况。

整体思路首先是生成下单间隔天数,并将期划归为不同的区间,其次按不同的期间统计各区间的下单次数,最后比较两个期间次数的变化,对有变化的部分再着重分析。

import pandas as pd
import numpy as np
import os
import time

os.chdir(r"C:\jiang\order_analysis")
tree=pd.read_excel("data_for_tr.xlsx")
df=tree.loc[1:10000,['uid', 'create_dt','sale_amount']]
df.rename(columns={'uid':'客户编号','create_dt':'下单日期','sale_amount':'下单金额'},inplace=True)
df.head(10)

定义一个函数,获取不同编号客户的下单间隔天数,并合并成一个df,a、b用于设定期间的起止日期。


def gap(df,a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,9,30)):
    start =time.perf_counter()
    df.sort_values(by=['客户编号','下单日期'],ascending=[True,True],inplace=True)

    df=df[(df['下单日期']>=a) &(df['下单日期']<=b) & (df['下单金额']> 0)]

    dflist=pd.DataFrame()
    for i in df['客户编号'].unique():
        df_c=df[df['客户编号']==i].reset_index(drop=True)
        df_c['下单间隔天数']=df_c.下单日期.diff().dt.days
        dflist=pd.concat([dflist,df_c])
        dflist.fillna(0,inplace=True)
    print('用时:',(time.perf_counter()-start),'s')
    return dflist
df_before=gap(df,a=pd.Timestamp(2018,1,1),b=pd.Timestamp(2018,9,30))
df_before.head(10)
df_before.info()

再定义个函数,生成下单间隔天数所属区间。区间需结合交易场景、频率进行设定。


def order_ct(d:pd.DataFrame):
    d['区间']=pd.cut(d['下单间隔天数'],bins=[0,3,7,15,30,45,60,90,10000],labels=['0-3天','4-7天','8-15天','16-30天','31-45天','46-60天','61-90天','90+'],include_lowest=True)
    result=d.groupby(['客户编号','区间']).agg(**{'该间隔下单次数':pd.NamedAgg(column='下单间隔天数',aggfunc='count')}).unstack(level=-1).reset_index()
    result.columns=result.columns.droplevel(0)
    result.rename(columns={'':'客户编号'},inplace=True)
    result.set_index('客户编号',inplace=True)
    return result


df_before=gap(df,a=pd.Timestamp(2018,1,1),b=pd.Timestamp(2018,9,30))

order_ct(df_before)

经过以上处理,已经将a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,9,30)期间的交易,按时下单间隔天数所属区间生成了一个表格。

以上两个函数处理过程也可以合成为一个:


def gap(df,a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,9,30)):
    start =time.perf_counter()
    df.sort_values(by=['客户编号','下单日期'],ascending=[True,True],inplace=True)

    df=df[(df['下单日期']>=a) &(df['下单日期']<=b) & (df['下单金额']> 0)]

    dflist=pd.DataFrame()
    for i in df['客户编号'].unique():
        df_c=df[df['客户编号']==i].reset_index(drop=True)
        df_c['下单间隔天数']=df_c.下单日期.diff().dt.days
        dflist=pd.concat([dflist,df_c])
        dflist.fillna(0,inplace=True)
    print('用时:',(time.perf_counter()-start),'s')
    
    dflist['区间']=pd.cut(dflist['下单间隔天数'],bins=[0,3,7,15,30,45,60,90,10000],labels=['0-3天','4-7天','8-15天','16-30天','31-45天','46-60天','61-90天','90+'],include_lowest=True)
    result=dflist.groupby(['客户编号','区间']).agg(**{'该间隔下单次数':pd.NamedAgg(column='下单间隔天数',aggfunc='count')}).unstack(level=-1).reset_index()
    result.columns=result.columns.droplevel(0)
    result.rename(columns={'':'客户编号'},inplace=True)
    result.set_index('客户编号',inplace=True)
    return result
df1=gap(df,a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,9,30)) #上期
df2=gap(df,a=pd.Timestamp(2017,5,22),b=pd.Timestamp(2018,10,31)) #本期


# 自2018年9月30日之后可能存在新增用户,为便于比较,需要筛选出老户的下单间隔情况。
df2_1=df2[df2.index.isin(df1.index) ]
df2_1

 至此,已生成两个不同区间下单间隔的分布表,接下来对两个表对加比较,寻找差异。


abnormal=(
    df1.compare(df2_1).iloc[:,2:]
    .dropna(axis=0,how='all')
    .fillna(0)
    .rename(columns={'self':'上期','other':'本期'})
    # .style.set_caption('间隔多天下单需排查的客户')
    
)
abnormal

abnormal部分数据如下,由于0-3天的下单间隔较为正常,故舍去:

通过上图可以清晰知道客户在本期产生的交易有多少是休眠后下单的。比如A2362798在本期新增了90+的下单记录,锁定后再进一步分析交易细节。

再看看本期有无新增客户:


df2_plus=df2[~df2.index.isin(df1.index) ]
df2_plus #结果是没有新增

最后,便是对各区间的异常情况加以具体分析。以90+的为例:


ab_90=abnormal.loc[abnormal[('90+','本期')] >=1,[('90+','本期')]]
ab_90

order_ab_90=df[df.客户编号.isin(ab_90.index)]
order_ab_90.sort_values(by='下单日期',ascending=True)

以下对分析结果画图展示,获得更直观的结果。


import matplotlib.pyplot as plt
plt.rcParams['font.family']=['sans-serif']
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

for i in order_ab_90.客户编号.unique():
    did=order_ab_90[order_ab_90.客户编号==i]
    plt.figure()
    plt.figure(figsize=(20,4))
    plt.bar(did.下单日期, did.下单金额)
    plt.title('客户编号为{}且下单间隔90+的交易情况'.format(i))
    plt.show()


for i in order_ab_90.客户编号.unique():
    did=order_ab_90[order_ab_90.客户编号==i]
    plt.figure()
    plt.figure(figsize=(20,4))
    plt.scatter(did.下单日期, did.下单金额)
    plt.title('客户编号为{}且下单间隔90+的交易情况'.format(i))
    plt.show()

结合下单的品类结构、送货地址变化、司机、收货人、出入库记录等信息再判断订单的真实性。对异常点形成较为完整全面的认识,为下一步反欺诈调查做好铺垫。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值