一、案例分析
### --- 案例分析
~~~ 我们可以大概判别哪些特征很可能和用户是否购买保险会有相关关系。
~~~ 也可以结合我们的业务经验,以及数据可视化,特征工程方法,先行探索一下,
~~~ 这些特征中哪些特征更重要一些。
~~~ 可以在建模之后,再回顾我们这里认为比较重要或不重要的特征,看一下判断是否准确。
### --- 分析流程
### --- 导入数据,观察数据
~~~ 了解数据样本和特征个数,数据类型,基本信息统计数据基本信息,
~~~ 统计空值数量检查数据中是否有重复值需要删除(将用户ID删除后,再检测一次)
### --- 探索数据&数据可视化分析
~~~ 探索样本分类是否平衡
~~~ 用户年龄分布情况
~~~ 探索用户年龄和购买商业医疗保险之间的关系
~~~ 探索用户性别,以及性别和购买保险之间的关系
~~~ 探索用户学习,以及学历购买之间的情况
~~~ 根据对业务的理解,对数据进行探索分析
### --- 空置填充
~~~ 探索数据中有哪些特征含有空值
~~~ 探索空值的个数和比例是多少
~~~ 分析这些空值的特点,确定填充策略
~~~ 根据我们的策略编写函数进行空值填充
### --- 变量编码
~~~ 将无效特征删除
~~~ 思考对于不同的特征应该采用什么方法编码
~~~ 编写自动编码函数,根据分类变量的分类水平个数自动进行数值化编码
~~~ 将编码后的数据进行保存
### --- 独热编码
~~~ 首先使用直接编码的数据进行建模测试
~~~ 根据效果考虑,后续是否要采用独热编码对数据进行
~~~ 重新编码
### --- 数据建模
~~~ 切分数据集
~~~ 查看模型基础效果
~~~ 模型调参
### --- 输出结果的商业应用
~~~ 我们来看一下购买比例最高的两类客户的特征是什么?
~~~ # 第一类
~~~ 处于医疗险覆盖率比例较低区域
~~~ 居住年限小于7年
~~~ 65-72岁群体
~~~ 那么我们对业务人员进行建议的时候就是,
~~~ 建议他们在医疗险覆盖率比例较低的区域进行宣传推广,
~~~ 然后重点关注那些刚到该区域且年龄65岁以上的老人,
~~~ 向这些人群进行保险营销,成功率应该会更高。
~~~ # 第二类
~~~ 处于医疗险覆盖率比例较低区域
居住年限大于7年
~~~ 居住房屋价值较高
~~~ 这一类人群,是区域内常住的高端小区的用户。
~~~ 这些人群也同样是我们需要重点进行保险营销的对象。
### --- 除此之外,我们还可以做些什么?
~~~ 了解客户需求
~~~ 我们需要了解客户的需求,并根据客户的需求举行保险营销。
~~~ # PIOS数据∶
~~~ 向客户推荐产品,并利用个人的数据(个人特征)向客户推荐保险产品。
~~~ # 旅行者∶
~~~ 根据他们自己的数据(家庭数据),
~~~ 生活阶段信息推荐的是财务保险、人寿保险、保险、旧保险和用户教育保险。
~~~ 外部数据、资产保险和人寿保险都提供给高层人士,利用外部数据,
~~~ 我们可以改进保险产品的管理,增加投资的收益和收益。
### --- 开发新的产品
~~~ 保险公司还应协助外部渠道开发适合不同商业环境的保险产品,
~~~ 例如新的保险类型,如飞行延误保险、旅行时间保险和电话盗窃保险。
~~~ 目的是提供其他保险产品,而不是从这些保险中受益,而是寻找潜在的客户。
~~~ 此外,保险公司将通过数据分析与客户联系,了解客户。
~~~ 外部因素将降低保险的营销成本,并直接提高投资回报率。