数据分析知识点汇总-CSDN博客

本文链接：https://blog.csdn.net/weixin_46026706/article/details/135596376

本文详细介绍了数据分析中的特征工程，包括数据预处理（缺失值处理和数据格式转换）、特征选择（相关性分析和嵌入式方法），以及机器学习中的分类（如KNN、决策树、随机森林和朴素贝叶斯）和回归（线性回归、逻辑回归、多项式回归）方法，涵盖了效果评价、降维和参数调优等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据分析知识点汇总

一、特征工程
二、机器学习

一、特征工程

1.1数据预处理

数据特征观察
缺失值；均值；分位数；数据类型；最大最小值

1.1.1缺失值处理

删除
直接删除该条数据

简单填充
固定值如-99；均值、众数

复杂填充
插值法；KNN；随机森林

不处理
视为数据特征的一部分

1.1.2数据格式转化

标准化
需要数据服从正态分布，可以使处理后的数据转为标准正态分布，即均值为0，标准差为1

归一化
将数据放缩到一定范围内，如最大最小归一化为[0,1]

二值化
将连续数据根据阈值转化成布尔值

离散化分箱
将连续的数值离散化成确定的块，常用方法有等距离离散、等样本离散、决策树离散

独热编码（one-hot）
将类别属性中的每一类转化为一个二值属性，从而排除直接数值化带来的隐含关系

1.2特征选择

1.2.1相关性分析

简单线性回归
可以用线性回归中各变量的系数来体现相关性

卡方检验
可以反映预测值与真实值之间的偏离情况，再结合假设检验方法和显著性水平可以判断两变量之间是否相关，但无法反映关联强度

皮尔森相关系数
体现两变量之间的相关性强度

1.2.2嵌入式

即在训练模型的过程中进行特征选择

惩罚项（L1正则/lasso回归、L2正则/ridge回归）
可以向基模型（损失函数）中添加惩罚项，即L1正则项，便可自动选择特征，然后再结合L2防止过拟合

决策树
使用决策树便可以在训练模型过程中反映出各特征重要性

二、机器学习

训练机器学习模型的过程就是建模的过程，最终可以通过训练好的模型进行预测

2.1分类

数据样本由若干维属性组成的x和类别y组成，其中y是离散的标签值

2.1.1分类方法

KNN
K个最近邻来决定自身的分类
优点：简单
缺点：计算量大；可解释性不强

决策树
按属性进行分类，通过信息增益计算分类的效果
优点：不需要参数假设；适合高维数据
缺点：易过拟合；信息增益偏向样本数较多的类别

随机森林
随机选择属性作为决策树的属性，对所有样本进行有放回的抽样作为决策树的样本，若干棵这样的树组成森林，最后根据所有树的投票决定样本的分类
优点：不容易过拟合；对缺失数据不敏感
缺点：需要数据量较大

朴素贝叶斯
计算特定数据下，各类别的概率
优点：对于缺失数据不敏感；分类稳定
缺点：需要假设各参数之间是相互独立的

2.1.2分类效果评价方法

混淆矩阵
通过二维矩阵展示分类结果，包括准确率、精确率、召回率、F1评分
准确率：预测正确的正负样本占样本总数的比例
精确率：预测为正的样本里面有多少真正是正的
召回率：样本中的正例有多少被预测正确
F1：2/F1 = 1/精确率 + 1/召回率

RUC/AUC
某些学习器是为测试样本产生一个实值或者概率预测，然后将这个预测值与一个分类阈值进行比较，如果大于阈值则分为正类，否则为反类
针对这种情况，可以将阈值从0逐渐提升到1，绘制出真正率（TP/(TP+FN)）和假正率（FP/(FP+TN)）所组成的曲线，该曲线即为ROC曲线，该曲线所围成的面积即为AUC的值，AUC的值越接近1越好