临时

最新推荐文章于 2024-09-16 08:54:02 发布

路远8293

最新推荐文章于 2024-09-16 08:54:02 发布

阅读量482

点赞数

文章标签：开发语言 sql 数据库

本文链接：https://blog.csdn.net/weixin_44593786/article/details/121597495

版权

本文介绍了回归分析的基本概念，包括线性回归和逻辑回归。线性回归用于建立因变量与一个或多个自变量之间的线性关系，而逻辑回归则适用于处理二元分类问题，计算事件发生的概率。文中还提到了线性回归的潜在问题，如异常值敏感、多重共线性等，并指出在多项式回归中避免过拟合的重要性。逻辑回归则允许非线性关系，并通过逐步筛选法选择重要变量。

摘要由CSDN通过智能技术生成

1.混淆矩阵

混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式

2.回归分析

预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系

3.回归的种类

① 线性回归

拟合直线（也就是回归线）在因变量（Y）和一个或多个自变量（X）之间建立一种关系。

最小二乘法轻松地完成。最小二乘法也是用于拟合回归线最常用的方法。对于观测数据，它通过最小化每个数据点到线的垂直偏差平方和

自变量与因变量之间必须有线性关系
多元回归存在多重共线性，自相关性和异方差性。
线性回归对异常值非常敏感。它会严重影响回归线，最终影响预测值。
多重共线性会增加系数估计值的方差，使得在模型轻微变化下，估计非常敏感。结果就是系数估计值不稳定
在多个自变量的情况下，我们可以使用向前选择法，向后剔除法和逐步筛选法来选择最重要的自变量。

②逻辑回归

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元（1 / 0，真/假，是/否）变量时，我们就应该使用逻辑回归。这里，Y的值从0到1，它可以用下方程表示。

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk

上述式子中，p表述具有某个特征的概率。你应该会问这样一个问题：“我们为什么要在公式中使用对数log呢？”。

因为在这里我们使用的是的二项分布（因变量），我们需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中，通过观测样本的极大似然估计值来选择参数，而不是最小化平方和误差（如在普通回归使用的）