序言:
近两年,很多金融机构纷纷响应国家号召都上线了小微类产品,目前风控的同行也比较关注小微风控产品类的内容。近期番茄风控也相继开播了小微风控的内容(包括小微风控训练营的课程),跟星球的同学交流,大家比较关心小微企业的模型如何开发?目前税务类数据中,都有哪些维度的数据?这些数据中,哪些可以进行清洗,然后做成有效的变量,并且这些变量中哪些进行入模比较有效?
关于以上种种问题,本次文章给大家带来一篇深度内容:企业税银数据的深度分析
正文:
最近,不良率又开始攀升了。疫情后央妈放了一波流动性,中小企业得以续命。做风险的同学都知道,一年半正是风险暴露的高峰期。从宏观视角看,经济发展的三驾马车——投资、消费、外需均受到中美贸易战、新冠疫情等负面因素影响,短期内中小企业营收都会受到一定冲击,这时候对中小企业、小微企业授信尤为考验金融机构的风险管理能力。
在众多to B的数据源中,企业税银数据算是效果较好的一种。下面我们将会详细和各位同学深度分析如何可以有效使用这类数据。
税务数据主要是对接各省份税局。由于不同税局底层存储逻辑的差异,全国性经营的金融机构需要在对接后建立一个中台数仓来清洗数据。我们建议可以把数据分为基础信息、纳税申报信息、税款征收信息、企业上下游交易信息、资产负债表信息、利润表信息、涉税违法违章信息七大部分。
以下我们会对目前经常用的这几块内容展开进行详细讲解:
一.基础信息
基础信息包括纳税人识别号、组织机构代码、注册地址、营业地址、行业名称、纳税信用等级、注册资本等。对于行业名称,在实际应用过程中,我们发现大部分客户都会被归类成制造业、批发和零售业,单一特征风险区分度低。这时候建议可以把营业地址和行业名称进行特征组合。
1)第一步,清洗营业地址,把地址中省、市、区、镇、街分别加工出来。对于有预算的金融机构,可以找第三方机构帮忙完成数据清洗,这个在市场上已经有成熟的解决方案了。对于没有预算的金融机构,可以使用正则表达式自行清洗。
2)第二步,把同一城市、同一行业的企业聚类起来,作为一个分组。在分组完成后会发现,每个分组的颗粒度太细,没有庞大的历史数据支撑下,基本上是不能验证分组的风险区分度。我们建议可以使用各城市的GDP排名来进行特征合并的筛选标准。譬如说针对广东省东莞市,把GDP排名前十的各个区、镇的企业分组进行合并。这种合并方案,会比使用历史数据统计然后分箱会更加稳定,同时注重了行业长期风险偏好的要素,考虑了潜在的宏观风险因素。
3)第三步,把衍生数据应用到具体的策略和模型当中。
二.纳税申报信息
纳税申报信息包括企业过去一定时间内的纳税记录,包括申报日期、缴纳税的种类、应税销售收入、应纳税额等。这里注意的是小微企业做账都是请第三方会计事务所来完成,纳税金额基本上小于实际营业收入,所以需要结合行业对纳税金额进行调整,才能作为授信的其中一个评价维度。
1)第一步,税种清洗。企业主要的纳税内容是增值税和营业税,对于同一行业的企业,基本上纳税信息都是比较雷同。在清洗时,只需要保留这两个税种就可以,其他税种的缴纳税金单独合并。
2)第二步,回归衍生特征。税局返回来的信息是按月更新,我们可以使用客户历史一段时间的数据来进行线性回归,得到申请贷款时点未来一段时间的纳税金额。
3)第三步,对于求回归时残差超过一定阀值的企业,说明历史缴纳税额非常不稳定,可以对它的纳税金额进行一定的系数扣减;对于残差符合业务逻辑的企业,在预测纳税金额的基础上,结合行业进行一定的系数提升,最终得到预测营业收入。
未完待续…
剩余的内容,本文还包括以下四大部分:
三.税款征收信息
四.企业上下游交易信息
五.企业资产负债表与企业利润表
六.涉税违法违章信息
关于以上剩余部分,各位星球的同学可以先提前到知识星球平台预览本次完整的内容。
本文中涉及到的一些经验知识,均为经过多年数据应用之后总结所得,如有疑问,可以在知识星球留言,跟我们继续深入探讨!
~原创文章
…
end