数据分析知识点汇总

本文详细介绍了数据分析中的特征工程,包括数据预处理(缺失值处理和数据格式转换)、特征选择(相关性分析和嵌入式方法),以及机器学习中的分类(如KNN、决策树、随机森林和朴素贝叶斯)和回归(线性回归、逻辑回归、多项式回归)方法,涵盖了效果评价、降维和参数调优等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、特征工程

1.1数据预处理

数据特征观察
缺失值;均值;分位数;数据类型;最大最小值

1.1.1缺失值处理

删除
直接删除该条数据

简单填充
固定值如-99;均值、众数

复杂填充
插值法;KNN;随机森林

不处理
视为数据特征的一部分

1.1.2数据格式转化

标准化
需要数据服从正态分布,可以使处理后的数据转为标准正态分布,即均值为0,标准差为1

归一化
将数据放缩到一定范围内,如最大最小归一化为[0,1]

二值化
将连续数据根据阈值转化成布尔值

离散化分箱
将连续的数值离散化成确定的块,常用方法有等距离离散、等样本离散、决策树离散

独热编码(one-hot)
将类别属性中的每一类转化为一个二值属性,从而排除直接数值化带来的隐含关系

1.2特征选择

1.2.1相关性分析

简单线性回归
可以用线性回归中各变量的系数来体现相关性

卡方检验
可以反映预测值与真实值之间的偏离情况,再结合假设检验方法和显著性水平可以判断两变量之间是否相关,但无法反映关联强度

皮尔森相关系数
体现两变量之间的相关性强度

1.2.2嵌入式

即在训练模型的过程中进行特征选择

惩罚项(L1正则/lasso回归、L2正则/ridge回归)
可以向基模型(损失函数)中添加惩罚项,即L1正则项,便可自动选择特征,然后再结合L2防止过拟合

决策树
使用决策树便可以在训练模型过程中反映出各特征重要性

二、机器学习

训练机器学习模型的过程就是建模的过程,最终可以通过训练好的模型进行预测

2.1分类

数据样本由若干维属性组成的x和类别y组成,其中y是离散的标签值

2.1.1分类方法

KNN
K个最近邻来决定自身的分类
优点:简单
缺点:计算量大;可解释性不强

决策树
按属性进行分类,通过信息增益计算分类的效果
优点:不需要参数假设;适合高维数据
缺点:易过拟合;信息增益偏向样本数较多的类别

随机森林
随机选择属性作为决策树的属性,对所有样本进行有放回的抽样作为决策树的样本,若干棵这样的树组成森林,最后根据所有树的投票决定样本的分类
优点:不容易过拟合;对缺失数据不敏感
缺点:需要数据量较大

朴素贝叶斯
计算特定数据下,各类别的概率
优点:对于缺失数据不敏感;分类稳定
缺点:需要假设各参数之间是相互独立的

2.1.2分类效果评价方法

混淆矩阵
通过二维矩阵展示分类结果,包括准确率、精确率、召回率、F1评分
准确率:预测正确的正负样本占样本总数的比例
精确率:预测为正的样本里面有多少真正是正的
召回率:样本中的正例有多少被预测正确
F1:2/F1 = 1/精确率 + 1/召回率

RUC/AUC
某些学习器是为测试样本产生一个实值或者概率预测,然后将这个预测值与一个分类阈值进行比较,如果大于阈值则分为正类,否则为反类
针对这种情况,可以将阈值从0逐渐提升到1,绘制出真正率(TP/(TP+FN))和假正率(FP/(FP+TN))所组成的曲线,该曲线即为ROC曲线,该曲线所围成的面积即为AUC的值,AUC的值越接近1越好

2.2回归

数据样本由若干维属性组成的x和类别y组成,其中y是连续的数值

2.2.1回归方法

线性回归
自变量之间只存在线性关系,即自变量只能通过相加、或者相减进行组合

逻辑回归
线性回归加激活函数(Sigmoid)后可以将预测值映射到[0,1]之间,可以进行分类

多项式回归
在线性回归的基础上,若自变量的指数大于1,则是多项式回归

2.2.2回归效果评价

在数据集相同时,比对不同方法的回归效果

均方误差
用真实值减去预测值,平方之后求和平均

R-square(决定系数)
用于消除原始数据离散程度的影响

Adjusted R-Square (校正决定系数)
用于消除样本数量和特征数量的影响

2.2.3回归其他相关问题

降维
通过筛选掉对y影响比较小的维度,达到缩减数据规模的目的
常见的降维方法有:lasso

目标函数/损失函数
目标函数为最终所要优化的目标
损失函数为预测值和真实值之间的偏差
在某些回归场景中·,目标函数就是损失函数
目标函数/损失函数用于参数优化场景,针对同一种方法,它可以评估每一组参数的优劣
常见的目标函数计算方法有:最小二乘法

参数调优
在不同的数据集上,针对同一方法,对参数进行优化,从而达到更好的回归效果
常见的调优方法:梯度下降法
梯度下降:需要设置参数的初始值,并设置每一次调整的步长,通过求导的方式逐步找到最优的参数值

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值