数据分析知识点汇总
一、特征工程
1.1数据预处理
数据特征观察
缺失值;均值;分位数;数据类型;最大最小值
1.1.1缺失值处理
删除
直接删除该条数据
简单填充
固定值如-99;均值、众数
复杂填充
插值法;KNN;随机森林
不处理
视为数据特征的一部分
1.1.2数据格式转化
标准化
需要数据服从正态分布,可以使处理后的数据转为标准正态分布,即均值为0,标准差为1
归一化
将数据放缩到一定范围内,如最大最小归一化为[0,1]
二值化
将连续数据根据阈值转化成布尔值
离散化分箱
将连续的数值离散化成确定的块,常用方法有等距离离散、等样本离散、决策树离散
独热编码(one-hot)
将类别属性中的每一类转化为一个二值属性,从而排除直接数值化带来的隐含关系
1.2特征选择
1.2.1相关性分析
简单线性回归
可以用线性回归中各变量的系数来体现相关性
卡方检验
可以反映预测值与真实值之间的偏离情况,再结合假设检验方法和显著性水平可以判断两变量之间是否相关,但无法反映关联强度
皮尔森相关系数
体现两变量之间的相关性强度
1.2.2嵌入式
即在训练模型的过程中进行特征选择
惩罚项(L1正则/lasso回归、L2正则/ridge回归)
可以向基模型(损失函数)中添加惩罚项,即L1正则项,便可自动选择特征,然后再结合L2防止过拟合
决策树
使用决策树便可以在训练模型过程中反映出各特征重要性
二、机器学习
训练机器学习模型的过程就是建模的过程,最终可以通过训练好的模型进行预测
2.1分类
数据样本由若干维属性组成的x和类别y组成,其中y是离散的标签值
2.1.1分类方法
KNN
K个最近邻来决定自身的分类
优点:简单
缺点:计算量大;可解释性不强
决策树
按属性进行分类,通过信息增益计算分类的效果
优点:不需要参数假设;适合高维数据
缺点:易过拟合;信息增益偏向样本数较多的类别
随机森林
随机选择属性作为决策树的属性,对所有样本进行有放回的抽样作为决策树的样本,若干棵这样的树组成森林,最后根据所有树的投票决定样本的分类
优点:不容易过拟合;对缺失数据不敏感
缺点:需要数据量较大
朴素贝叶斯
计算特定数据下,各类别的概率
优点:对于缺失数据不敏感;分类稳定
缺点:需要假设各参数之间是相互独立的
2.1.2分类效果评价方法
混淆矩阵
通过二维矩阵展示分类结果,包括准确率、精确率、召回率、F1评分
准确率:预测正确的正负样本占样本总数的比例
精确率:预测为正的样本里面有多少真正是正的
召回率:样本中的正例有多少被预测正确
F1:2/F1 = 1/精确率 + 1/召回率
RUC/AUC
某些学习器是为测试样本产生一个实值或者概率预测,然后将这个预测值与一个分类阈值进行比较,如果大于阈值则分为正类,否则为反类
针对这种情况,可以将阈值从0逐渐提升到1,绘制出真正率(TP/(TP+FN))和假正率(FP/(FP+TN))所组成的曲线,该曲线即为ROC曲线,该曲线所围成的面积即为AUC的值,AUC的值越接近1越好
2.2回归
数据样本由若干维属性组成的x和类别y组成,其中y是连续的数值
2.2.1回归方法
线性回归
自变量之间只存在线性关系,即自变量只能通过相加、或者相减进行组合
逻辑回归
线性回归加激活函数(Sigmoid)后可以将预测值映射到[0,1]之间,可以进行分类
多项式回归
在线性回归的基础上,若自变量的指数大于1,则是多项式回归
2.2.2回归效果评价
在数据集相同时,比对不同方法的回归效果
均方误差
用真实值减去预测值,平方之后求和平均
R-square(决定系数)
用于消除原始数据离散程度的影响
Adjusted R-Square (校正决定系数)
用于消除样本数量和特征数量的影响
2.2.3回归其他相关问题
降维
通过筛选掉对y影响比较小的维度,达到缩减数据规模的目的
常见的降维方法有:lasso
目标函数/损失函数
目标函数为最终所要优化的目标
损失函数为预测值和真实值之间的偏差
在某些回归场景中·,目标函数就是损失函数
目标函数/损失函数用于参数优化场景,针对同一种方法,它可以评估每一组参数的优劣
常见的目标函数计算方法有:最小二乘法
参数调优
在不同的数据集上,针对同一方法,对参数进行优化,从而达到更好的回归效果
常见的调优方法:梯度下降法
梯度下降:需要设置参数的初始值,并设置每一次调整的步长,通过求导的方式逐步找到最优的参数值