风控人都在夸交通出行数据好用,那就来看看如何挖掘与应用此类数据

在个人C端信贷产品的业务体系中,特征数据维度较多且应用价值较高,常见的有人行征信、电商消费、银联交易、多头借贷、设备安装、社交行为等,这些维度的数据无论是针对策略模型的风控环节,还是面向客户画像的营销场景,都贡献着较大的信息价值,发挥着非常重要的作用。本文将给大家介绍一类相对较为特殊,但应用价值较大的维度数据,即出行数据,具体内容主要从特征标签类型及其贷风控应用进行重点描述。
本次展示内容以铁路出行数据作为示例,向大家说明相关标签的挖掘与应用。铁路出行数据的信息较为敏感,因此在数据应用过程中与银联、运营商等数据类似,为了符合行业监管要求并能发挥数据信息价值,特征标签多数是以区间、等级、是否等形式体现的。从业务应用角度进行区分,铁路出行数据可以分为信息核验、特征核验、特征标签、模型评估共4个类别,下面对每个产品类型的相关字段分别进行介绍。

1、信息核验
信息核验产品主要是通过某基本要素,例如姓名、身份证号、手机号,查询确认是否为铁路平台用户,并进行多要素交叉验证是否一致,此外还可以校验用户在历史某段时间内是否乘坐过铁路列车,这些数据查询功能接口,可用于信贷产品的贷前策略模块,以准入条件或风险核验进行应用。
(1)姓名、身份证号二要素核验:
使用姓名、身份证号查询系统内用户信息,确认是否为12306用户;
(2)姓名、身份证号、手机号三要素核验:
使用姓名、身份证号、手机号查询系统内用户信息,并进行信息交叉验证;
(3)乘车乘车信息核验:
使用姓名、身份证号查询系统内用户信息,确认用户是否在3年内乘坐过列车;
(4)二要素及一年乘车核验:
使用姓名、身份证号查询用户身份信息是否一致,以及1年内是否乘坐过列车。

2、特征核验
特征核验产品主要用于确认用户在某些特征标签的真实性,包括基本信息、行为属性等维度,在数据应用方面包括基础信息、出行峰值、目的地点、旅游特性、普惠群体。
2.1 基础信息
(1)是否男性:根据手机号查询性别;
(2)是否学生身份:最后1次购买学生票到现在没有超过6个月;
(3)是否社会新人:最后1次购买学生票到现在超过6个月且小于12个月,同时年龄小于27岁;
(4)是否商旅身份:1年内乘坐GD列车总次数为30次以上;
(5)是否高端商旅人士:1年内乘坐高端坐席(一等、商务、软卧、包厢席别)比例超过70%;
(6)常住地是否X城市:输入城市名称;
(7)常住地是否二线城市:是否省会城市;
(8)常住地是否三线城市:是否地级市。

2.2 出行峰值
(1)1年内最繁忙出发月份是否X月:输入月份
(2)1年内最繁忙出发月份的出发次数是否X次以上:输入次数

2.3 目的地点
(1)1年内到达最多的城市是否X城市:排除常住地之外,输入城市名称
(2)1年内到达最多的城市次数是否X次以上:输入次数

2.4 旅游特性
(1)是否旅游达人:常去旅游城市
(2)1年内常去旅游城市是否X次以上:输入次数

2.5 普惠群体
(1)最近出发城市是否X城市
(2)最近到达城市是否X城市
(3)最近出发时间是否在1个月内
(4)最近出发是否乘坐普通列车
(5)最近出发乘坐的坐席等级是否二等及以下
(6)最近出发的消费金额是否100元以下

3、特征标签
特征标签产品的维度类别与字段数量比较多,因此在信贷场景的应用也更为广泛,包括策略规则的开发、模型变量的构建、客户画像的特征等。根据实际需求和应用特点,特征标签包括账户属性、乘车决策、乘车频率、乘车时间、消费金额、乘车等级、购票行为、订单交易等。由于各个维度可能包含的标签较多,以下介绍仅列出部分进行展示,更多详细字段可参看本文附件材料。
3.1 账户属性
(1)性别:男、女
(2)年龄层:[0,18) 、[18,60) 、[60,inf)
(3)关联手机号个数:[0,4) 、[4,8) 、[8,inf)

3.2 乘车决策
(1)作为乘车人购票总次数:[0,10) 、[10,30) 、[30,inf)
(2)作为乘车人退票总次数:[0,6) 、[6,24) 、[24,inf)
(3)作为乘车人改签总次数:[0,6) 、[6,24) 、[24,inf)
(4)作为乘车人GDC列车购票总次数:[0,6) 、[6,18) 、[18,inf)
(5)作为乘车人GDC列车退票总次数:[0,4) 、[4,14) 、[14,inf)
(6)作为乘车人GDC列车改签总次数:[0,4) 、[4,14) 、[14,inf)
(7)作为乘车人普通列车购票总次数:[0,4) 、[4,12) 、[12,inf)
(8)作为乘车人普通列车退票总次数:[0,2) 、[2,10) 、[10,inf)
(9)作为乘车人普通列车改签总次数:[0,2) 、[2,10) 、[10,inf)
(10)车票挂失次数:[0,6) 、[6,40) 、[40,inf)
(11)车票挂失比例:[0,20) 、[20,50) 、[50,100)
(12)行程变化比例:[0,15) 、[15,40) 、[40,100)
(13)GDC列车行程变化比例:[0,15) 、[15,40) 、[40,100)
(14)普通列车行程变化比例:[0,15) 、[15,40) 、[40,100)

3.3 乘车频率
(1)乘车总次数:[0,10) 、[10,30) 、[30,inf)
(2)GDC列车乘车总次数:[0,6) 、[6,18) 、[18,inf)
(3)普通列车乘车总次数:[0,4) 、[4,12) 、[12,inf)
(4)月平均乘车总次数:[0,3) 、[3,6) 、[6,inf)
(5)GDC列车月平均乘车总次数:[0,2) 、[2,4) 、[4,inf)
(6)普通列车月平均乘车总次数:[0,2) 、[2,3) 、[3,inf)
(7)乘车总里程:[0,10800) 、[10800,21600) 、[21600,inf)
(8)GDC列车乘车总次数:[0,6480) 、[6480,12960) 、[12960,inf)
(9)普通列车乘车总次数:[0,4320) 、[4320,8640) 、[8640,inf)
(10)平均出行距离:[0,300) 、[300,900) 、[900,inf)
(11)GDC列车平均出行距离:[0,300) 、[300,900) 、[900,inf)
(12)普通列车平均出行距离:[0,300) 、[300,900) 、[900,inf)

3.4 乘车时间
(1)总旅行时长:[0,49) 、[49,130) 、[130,inf)
(2)GDC列车总旅行时长:[0,23) 、[23,60) 、[60,inf)
(3)普通列车总旅行时长:[0,36) 、[36,96) 、[96,inf)
(4)平均旅行时长:[0,2) 、[2,5) 、[5,inf)
(5)GDC列车平均旅旅行时长:[0,2) 、[2,4) 、[4,inf)
(6)普通列车平均旅旅行时长:[0,3 、[3,9) 、[9,inf)
(7)工作日乘车次数:[0,5) 、[5,38) 、[38,inf)
(8)节假日乘车次数:[0,4) 、[4,26) 、[26,inf)
(9)工作日乘车比例:[0,30) 、[30,80) 、[80,inf)
(10)节假日乘车比例:[0,30) 、[30,80) 、[80,inf)
(11)差旅周期偏好:[0,2) 、[2,5) 、[5,inf)
(12)最近出发时间段:[0,8) 、[8,16) 、[16,24)
(13)最近到达时间段:[0,8) 、[8,16) 、[16,24)

3.5 消费金额
(1)车费消费总金额:[0,4752) 、[4752,9504) 、[9504,inf)
(2)GDC列车车费消费总金额:[0,3888) 、[3888,7776) 、[7776,inf)
(3)普通列车车费消费总金额:[0,864) 、[864,1728) 、[1728,inf)
(4)车费消费平均金额:[0,150) 、[150,450) 、[450,inf)
(5)GDC列车车费消费平均金额:[0,195) 、[195,585) 、[585,inf)
(6)普通列车车费消费平均金额:[0,75) 、[75,225) 、[225,inf)

3.6 乘车等级
(1)GDC等级列车乘车比例:[0,40) 、[40,80) 、[80,100)
(2)其他等级(ZTKYL 数字)列车乘车比例:[0,30) 、[30,70) 、[70,100)
(3)高端席别乘车次数(软卧、高软、特等、商务):[0,2) 、[2,6) 、[6,inf)
(4)普通席别乘车数量(其他):[0,8) 、[8,24) 、[24,inf)
(5)高端席别乘车比例(软卧、高软、特等、商务):[0,30) 、[30,70) 、[70,100)
(6)普通席别乘车比例(其他):[0,30) 、[30,70) 、[70,100)

3.7 购票行为
(1)线上(互联网、手机)购票数量:[0,6) 、[6,18) 、[18,inf)
(2)线下(窗口、自动售票机、代售点)购票数量:[0,3) 、[3,9) 、[9,inf)
(3)手机购票比例:[0,30) 、[30,80) 、[80,100)
(4)互联网购票比例:[0,30) 、[30,80) 、[80,100)
(5)线下(窗口、自动售票机、代售点)购票比例:[0,20) 、[20,70) 、[70,100)

3.8 订单交易
(1)订单总数量:[0,30) 、[30,80) 、[80,inf)
(2)平均每个订单购票数量:[0,3) 、[3,10) 、[10,inf)
(3)交易总张数:[0,40) 、[40,100) 、[100,inf)
(4)交易支付总张数:[0,40) 、[40,100) 、[100,inf)
(5)交易未支付总张数:[0,40) 、[40,100) 、[100,inf)
(6)动车车票交易张数(GDC):[0,24) 、[24,60) 、[60,inf)
(7)动车车票交易比例(GDC):[0,30) 、[30,80) 、[80,100)
(8)交易支付总金额:[0,4752) 、[4752,9504) 、[9504,inf)
(9)GDC车票最大交易金额:[0,293) 、[293,878) 、[878,inf)
(10)普通车票最大交易金额:[0,113) 、[113,338) 、[338,inf)
(11)全票数量:[0,29) 、[29,76) 、[76,inf)
(12)孩票数量:[0,9) 、[9,24) 、[24,inf)
(13)全票比例:[0,50) 、[50,90) 、[90,100)
(14)孩票比例:[0,10) 、[10,50) 、[50,100)
(15)网上第三方支付次数:[0,21) 、[21,56) 、[56,inf)
(16)网上银行卡支付次数:[0,4) 、[4,10) 、[10,inf)
(17)储蓄卡支付次数:[0,8) 、[4,20) 、[20,inf)
(18)网上第三方支付比例:[0,30) 、[30,70) 、[70,100)
(19)网上银行卡支付比例:[0,30) 、[30,70) 、[70,100)
(20)储蓄卡支付比例:[0,30) 、[30,70) 、[70,100)

4、模型评估
模型评估是通过多个特征变量进行模型训练,以量化分数来评测乘车用户的表现,根据实际业务场景的不同,可以分为风险评估和价值评估,分别可以应用于贷前风控审核与贷中画像营销等环节。
(1)风险评估
模型可用于银行等金融机构信贷产品的贷前风控审核、评价客户稳定性及价值、分析是否存在商旅属性等,具体特征字段的时窗周期可以定义为3个月、6个月、9个月等不同区间。现举例风险评估模型的主要字段分布,具体如图1所示:
在这里插入图片描述
图1 风险评估字段

(2)价值评估
模型通过描述用户画像的标签信息,可用于金融机构对信贷用户的征信评估,包括经济收入、还款能力等,从而实现业务场景的精准营销。现举例价值评估模型的主要字段分布,具体如图2所示:
在这里插入图片描述
图2 价值评估字段

关于本文所提到的出行数据的挖掘与应用,本次番茄风控除此文章,也在知识星球平台准备了相关的学习材料,帮助大家了解相关的标签挖掘与应用:
在这里插入图片描述

详细内容可至知识星球后台,查看完整版本内容:
在这里插入图片描述

~原创文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值