《数据挖掘与数据化运营实战》(第10章)
10 预测响应(分类)模型的典型应用和技术小窍门
预测响应模型是数据挖掘中最常见的应用模型,最直接的涉及的精细化运营的客户分层以及随后的个性化区别对待。
预测响应模型涉及的几种算法:神经网络、决策树、逻辑回归、多元线性回归。
10.1 神经网络
神经网络是一组互相连接的输入、输出单元,其中每个连接都会与一个权重相关联。在学习阶段,通过调整这些连接的权重就能够预测输入观察值的正确类标号。人工神经网络的结构大致分为两类:前向型网络、反馈型网络。
- 前向型网络:是指传播方向是从输入和输出端,并且没有任何的反馈。
- 反馈型网络:是传播方向上除了从输入端到输出端之外,还有回环或反馈存在。
神经网络通过输入多个非线性模型,以及不同模型之间的加权互联,最终得到一个输出模型,具体来说,多元输入层是指一些自变量,这些自变量通过加权结合到中间的层次,称为隐蔽层(所谓的黑箱部分),隐蔽层主要包含的是非线性函数,也称转换函数或者挤压函数。
利用神经网络模型建模的过程中,有5个重大的影响因素:
- 层数
- 每层中输入变量的数量
- 联系的种类
- 联系的程度
- 转换函数
大部分神经网络模型的学习过程,都是通过不断地改变权重来使误差达到总误差的最小绝对值。比如,以常见的前向型网络模型为例,其设计原理如下:
- 层数。对于一定的输入层和输出层,需要有多少个隐蔽层,从理论上,两层就足够了,在实践中,经常是一层隐蔽层就足够了。
- 每层中输入变量的数量。输出层的变量由具体的分析背景来决定的,而隐蔽层的数量为输入数与输出数的乘积开平方,输入层的数量应该尽量精简。
- 联系的程度。一般都选择所有层次间全部联系。
- 转换函数。选用逻辑斯蒂回归作为主要的转换函数,因为逻辑斯蒂函数可以提供在最短时间内的最佳拟合。
- 样本开发样本要足够充分,避免过拟合现象发生。
神经网络的优势