1 汽车销售行业行为识别
背景
汽车销售行业在税收上存在少开发票金额、少记收入,上牌、按揭、保险不入账,不及时确认保修索赔款等情况,导致政府损失大量税收。汽车销售企业的部分经营指标数据能在一定程度上评估企业的偷漏税倾向。样本数据提供了汽车销售行业纳税人的各种属性和是否偷漏税标识,提取纳税人经营特征可以建立偷漏税行为识别模型,识别偷漏税纳税人。
分析方法的主要流程:
1.1 数据的提取
由于数据是现成的,所以免去了从后台抽取数据的过程,直接进行读取,代码如下:
# -*- coding: utf-8 -*-
import pandas as pd
data=pd.read_csv('4s.csv',index_col=u'纳税人编号')
1.2 数据预处理
观察样本数据可知无缺失数据,故不用考虑此类情况对分析结果的影响,我们在建模时需要将样本中的数据类型转化为数值型,因此要对销售类型和销售模式进行重新编码处理,输出特征进行二值化处理。将数据编写成为编码,数据输出将异常状态与正常状态变为0和1,使得能够被识别。代码如下:
#%%
data[u'输出']=pd.Categorical(data[u'输出']).codes
label =