决策树在商业保险中的应用

该博客探讨了决策树在商业保险领域的应用,包括业务背景分析、数据探索性研究、数据清洗过程以及建立决策树模型。通过对健康险产品用户进行画像,利用决策树进行精准营销。数据清洗涉及删除不必要的列、填充空值、数据编码等步骤,最后构建并调整决策树模型以优化分类效果。
摘要由CSDN通过智能技术生成

决策树在商业保险中的应用

⼀、业务背景

  1. 业务环境
    1.概览
    受保险⾏业结构转型时期影响,互联⽹保险整体发展受阻,2018年⾏业保费收⼊为1889亿元, 较去年基本持平,不同险种发展呈现分化格局,其中健康险增⻓迅猛,2018年同⽐增⻓108%,主要由短期医疗险驱动。
    格局
    供给端专业互联⽹保险公司增⻓迅速,但过⾼的固定成本及渠道费⽤使得其盈利问题凸显,加上发展现状强,⾃营渠道建设及科技输出是未来的破局⽅法,渠道端形成第三⽅平台为主,官⽹为辅的格局,第三⽅平台逐渐发展出B2C、B2A、B2B2C等多种创新业务模式。
    模式
    互联⽹保险不仅仅局限于渠道创新,其核⼼优势同样体现在产品设计的创新和服务体验的提升。
  2. 发展趋势
    竞合格局
    随着⼊局企业增多,流量争夺更加激烈,最终保险公司与第三⽅平台深度合作将成为常态。
    保险科技
    当前沿科技不断应⽤于保险⾏业,互联⽹保险的概念将会与保险科技概念⾼度融合。
  3. 衡量指标
    在这里插入图片描述
  4. 业务⽬标
    针对保险公司的健康险产品的⽤户,制作⽤户画像,然后进⾏精准保险营销。

5.数据分析的流程

1  读入数据
1.1  了解数据
2  了解我们的特征
3  探索特征和响应数据之间的比例关系
4  数据清洗
4.1  删除不需要的列
4.2  拆分训练集和测试集
4.3  空值统计
4.4  空值填充
4.5  数据编码
4.6  测试集相同编码方式
4.7  重复值检查和删除
5  建模
5.1  调参
5.2  网格搜索

二、数据探索性分析

2.1、导入数据和安装包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv("保险行业决策树案例\data\ma_resp_data_temp.csv")
df.head()
df.shape
df.info()

在这里插入图片描述
在这里插入图片描述
在我们正式建模型之前,我们需要对我们的数据进行描述性统计,这样我们就能知道整个数据的大致分布是什么样的,做到心里有数,然后能够数据大致的全貌有一定的了解。

2.2了解数据特征的分布情况

def value_counts(column):
    """函数功能: 传入列名, 返回该列的计数统计
    绘制柱状图"""
    df[column].value_counts().plot(kind='bar');
    return df[column].value_counts()
#查看购买保险人数
value_counts("resp_flag")

在这里插入图片描述

#查看性别分布
value_counts("GEND")

在这里插入图片描述

#查看是否大学毕业分布
value_counts("COLLEGE")

在这里插入图片描述

2.3了解数据特征与标签之间的相关性强弱

1.了解每一个学历下购买的人数占比情况

d = df.groupby("c210mys")["resp_flag"].mean()
plt.figure(dpi = 100)
d.plot(kind = "bar")
plt.xlabel("学历")
plt.ylabel("每一学历购买保险的占比")

在这里插入图片描述
从图中可以看到学历等级的高低与购买保险并无太多相关性
2.了解社会经济评分购买保险的人数占比情况

plt.figure(dpi =500)
df.groupby("c210kses")["resp_flag"].count().plot(kind = "kde")

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值