机器学习数据分析1

「已注销」

已于 2023-09-23 15:14:27 修改

阅读量126

点赞数

分类专栏：数据分析文章标签：机器学习人工智能

于 2023-08-11 16:47:01 首次发布

本文链接：https://blog.csdn.net/yxxx_5678/article/details/131793181

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

特征的预处理:对数值型的数据进行处理

无量纲化:
在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求这种需求统称为将数据“无量纲化"譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经网络，无量纲化可以加快求解速度:而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。(一个特例是决策树和树的集成算法们，对决策树我们不需要无量纲化，决策树可以把任意数据都处理得很好。)
那么预处理就是用来实现无量纲化的方式。
含义: 特征抽取后我们就可以获取对应的数值型的样本数据啦，然后就可以进行数据处理了

概念:通过特定的统计方法(数学方法)，将数据转换成算法要求的数据

方式:
归一化

标准化

2023.7.17

Onehot编码

特征抽取主要目的就是对非数值型的数据进行特征值化

文本特征抽取

2023.7.19

Filter过滤式（方差过滤）

数据集划分的API

from skiearn.model_selection import train_test_split

train_test_split(x,y,test_sizerandom_state)

参数介绍：

x;特征

y:目标

test_size:测试集的比例

random_state:打乱的随机种子

返回值:训练特征，测试特征，训练目标，测试目标

2023.7.20

KNN算法算距离

二维：

a[xa,ya] b[xb,yb]

距离=((xa-xb)**2+(ya-yb)**2)**0.5

学习曲线寻找最优k值

简化数据集的技术，低纬度去表示高纬度的物体时，一定会造成一些信息的差异。可以让低纬度也可以能正确的表示高纬度的事物，让信息差异最小。

目的：特征数量达到上百，上千的时候，考虑数据的优化。使数据维度压缩，尽可能降低源数据的维度（复杂度），损失少量信息。

作用：可以削减回归分析或者聚类分析中特征的数量

2023.7.21

数据清洗
重复值、缺失值、格式调整
异常值处理(比如: 销售金额存在等于0的，属于异常等)

2023.7.24

1.交叉验证

K折交叉验证会把样本数据随机的分成K份（一般是均分），每次随机的选择K-1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择K-1份来训练数据。最后我们来选择最优的模型以及参数。

对于KFold Cross Validation，能减少train_split_test一次随机划分带来的偶然性，最终提高模型的泛化能力

cv=None，默认等于5，含义是从中随机选择4个作为训练集，另1个是测试集

找到最优的k值寻找前面的内容，结合这一节实现交叉验证

Shuffle可以防止训练过程中的模型抖动，有利于模型的健壮性

2.线性推导最优解的详细推导过程

3.回归模型评价指标

①是否预测到正确的值或是否预示到接近正确值

均值误差（MSE）：预测值f(x)与目标值y之间差值平方和的均值，其公式如下所示：

在sklearn当中，我们有两种方式调用这个评估指标：一种是使用sklearn专用的模型评估模块metrics里的类mean_squared_error 另一种是调用交叉验证的类cross_val_score并使用里面的scoring参数来设置为: neg_mean_squared error使用均方误差

ceof_系数w

train_test_split()函数划分训练集和测试集

平均绝对误差(MAE)：目标值与预测值之差绝对值和的均值

②是否拟合到足够信息

4.过拟合与欠拟合

房价预测拟合效果不好解决方式增加项数拟合效果比线性方程效果好

预测房价

2023.7.25

1.岭回归（过拟合如何处理）

岭回归的优点:

获取的回归系数更符合实际更可靠

在病态数据(异常值多的数据)偏多的研究中有更大的存在意义

2.朴素贝叶斯算法

P(A1,A2|B)意味着在事件B发生，A1、A2发生的概率

2022.7.26

1.高斯模型

高斯模型实现手写数字识别

predict_log_proba()其实会跟predict的预测结果不一致，所以并不是最大的就是分类结果

【已解决】sklearn svm的predict和proba输出结果不一样的原因_svm输出的概率和分类结果不一致_Shawn向陽的博客-CSDN博客

svm是支持向量机的一种算法

2023.7.27

1.多项式模型

出现某个类别概率为0，该如何处理

alpha一般不用进行改动

多项式实现文章分类

作用于鸢尾花分类中

（没有用上面的tf，因为数据都是数值类型，所以不需要像上面一样使用tf）

2023.7.28

1.sigmoid函数

回归模型实现分类效果：用sigmoid函数

sigmoid函数只能趋近于0或1，但不能等于0或1

逻辑回归的优点

2.逻辑回归的损失函数

3.梯度下降

线性回归中：最小二乘法减少损失，求出最优解w

逻辑回归：梯度下降

梯度下降的具体算法实现过程是：

1.确定模型的假设函数和损失函数

2.相关参数的初始化，包括：参数、算法终止距离和步长

3.确定当前位置损失函数的梯度

4.用步长乘以梯度，得到当前位置下降的距离

5.确定是否所有参数梯度下降的距离都小于算法终止距离，如果小于算法终止，否则进行下一步

6.更新所有参数，更新完毕转到步骤1

当目标函数是凸函数时，梯度下降法的解是全局最优解，这是没有问题的。但是在很多情况下，我们通过梯度下降到达的不一定是全局最低点，而是局部最低点，如下图所示，分别从A点和B点出发，通过若干次迭代后，分别落于全局最低点和局部最低点。

2023.7.30

1.正则化

C越小，压缩的结果就会越小或者越明显，很多都趋向于0，L1能等于0，但是L2不行

2.WOR和IV

IV和WOE通常是用在对模型的特征筛选的场景中，在模型刚建立时，选择的变量往往比较多，这个时候就需要有一种方法来帮助我们衡量什么变量应该进入模型什么变量应该舍弃，IV和WOE就可以帮助我们进行衡量。用IV和WOE值来进行判断，值越大就表示该特征的预测能力越强，则该特征应该加入到模型的训练中。

WOE(Weight Of Evidence) 用来衡量特征的预测强度，要使用WOE的话，首先要对特征进行分箱(分组: 将一种特征的组成元素进行分组)，分箱之后，对于其中第i组的WOE值公式如下:

其中，py_i表示该组中的正例占负例样本的比例，pn_i表示整体的正例占负例样本的比例

IV值在计算的时候，比WOE值多考虑了一层该变量下该分组占该变量下所有样本的比例

把上面的IV1,V2,IV3,V4加起来，就是这个变量的IV值，然后把所有变量的IV值都算出来，就可以根据V值的大小来看出变量的预测能力。

2023.7.31

分箱
数据分箱(也称为离散分箱或分段)是一种数据预处理技术，用于减少次要观察误差的影响，是一种将多个连续值分组为较少数量的“分箱”的方法，就是将连续型特征进行离散化

注意:

分箱的数据不一定必须是数字，它们可以是任何类型的值，如“狗”，“猫”，“仓鼠”等。分箱也用于图像处理，通过将相邻像素组合成单个像素，它可用于减少数据量。

分箱的作用

离散特征的增加和减少都很容易，易于模型的快速迭代，提升计算速度

特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。

特征离散化以后，起到了简化了模型的作用，可以适当降低了模型过拟合的风险。

pandas实现数据的分箱:pd.cut()

分箱方式一

方式二

注意:我们对特征进行分箱后，需要对分箱后的每组(箱)进行woe编码，然后才能放进模型训练。

先转成字典，然后woe所返回的结果值来表示我们的离散结果

2023.8.1

1.样本类别分布不均衡

什么是样本类别分布不均衡
.举例说明，在一组样本中不同类别的样本量差异非常大，比如拥有1000条数据样本的数据集中，有一类样本的分类只占
有10条，此时属于严重的数据样本分布不均衡。
样本类别分布不均衡导致的危害?
样本类别不均衡将导致样本量少的分类所包含的特征过少，并很难从中提取规律;即使得到分类模型，也容易产生过度依赖与有限的数据样本而导致过拟合问题，当模型应用到新的数据上时，模型的准确性会很差
解决方法:
通过过抽样和欠抽样解决样本不均衡

2023.8.2

过抽样

通过增加分类中少数类样本的数量来实现样本均衡，比较好的方法有SMOTE算法

SMOTE算法原理介绍:

简单来说smote算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a b之间的连线上随机选一点作为新合成的少数类样本

变成190个，让样本分布更均匀

2.欠抽样

欠抽样(under-sampling):通过减少分类中多数类样本的数量来实现样本均衡
from imblearn.under_sampling import RandomUnderSampler

2023.8.7

1.混淆矩阵

概念: 在分类任务下，预测结果(Predict Condition) 和真实结果(True Condition) 之间存在的四种不同的组合。适用于二分类和多分类
例子: 设计一个二分类的场景，将图片分类为猫或者狗。则:

真正例 (TP) :本来是猫结果预测值为猫的比例
伪正例 (FP):本来不是猫结果预测值为猫的比例
伪反例 (FN): 本来是猫结果预测值为不是猫的比例
真反例(TN) :本来不是猫结果预测值为不是猫的比例
真正例率TPR=TP/(TP+FN)
预测为正例且实际为正例的样本占所有训练集中为正例样本的比例

将正例预测对的占正样本的比例 (预测对的比例)，这个比例越大越好
伪反例率FRR=FP/(FP+TN)预测为正例但实际为负例的样本占训练集中所有负例样本的比例

将负例预测错的占负样本的比例 (预测错的比例)，这个比例越小越好