机器学习基础算法小结

最新推荐文章于 2023-08-31 16:49:37 发布

杨智友

最新推荐文章于 2023-08-31 16:49:37 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/yangzhiyouvl/article/details/54931212

版权

本文总结了机器学习的基础算法，包括线性回归、logistic回归、决策树、朴素贝叶斯、EM算法、KNN算法、SVM、聚类、降维及集成学习等。深入探讨了各算法的核心思想、优缺点，如线性回归的正则化、SVM的最大间隔等。还提到了异常检测和关联规则挖掘中的Apriori与FP Growth算法，为理解机器学习提供了全面概述。

摘要由CSDN通过智能技术生成

机器学习的问题更多的对算法模型的优化，特征工程也属于对算法模型的优化，这一点在后面均有体现。

说明：本文是对部分机器学习的算法模型的思想进行抽取，不会出现详细的推导。

先看一下要掌握的算法有哪些，我个人觉得部分算法有点偏，不过应该是在某个领域里有应用而且效果很好，否则不会成为必掌握的算法。

线性回归

1、线性函数的表示：

f (x) = θ 0 x 0 + θ 1 x 1 + \dots + θ n x n

$f\left ( x \right ) = \theta _{0}x_{0} + \theta _{1}x_{1} + \cdots + \theta _{n}x_{n}$
向量形式：

f (x) = θ ⃗ T X ⃗

$f\left ( x \right ) = \vec{\theta}^{T} \vec{X}$
其中：

θ ⃗ = (θ 1; θ 2; \dots θ n)

$\vec{\theta} = \left ( \theta_{1}; \theta_{2}; \cdots \theta_{n} \right )$
当 Θ 确定后，模型就确定了，Θ = 0是可得截距项 b。

2、cost function，亦即最小二乘法估计：

J (θ i) = 1 2 m \sum i = 1 m (h θ (x i) - y i) 2

$J\left ( \theta _{i} \right ) = \frac{1}{2m}\sum_{i = 1}^{m}\left ( h_{\theta }\left ( x_{i} \right ) - y_{i} \right )^{2}$
记得前面说过的机器学习的大部分问题都是优化模型吗？开始，使用梯度下降优化代价函数，这也是线性回归算法思想的精髓。

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta _{j} := \theta _{j} - \alpha \frac{\partial }{\partial \theta _{j}} J\left ( \theta \right )$
α 为学习率。

3、为防止过拟合，加入正则化：

J (θ i) = arg min θ 1 2 m ⎡ ⎣ ⎢ ⎢ \sum i = 1 m (h θ (x i) - y i) 2 + λ \sum j = 1 n θ 2 j ⎤ ⎦ ⎥ ⎥

$J\left ( \theta _{i} \right ) = \arg \underset{\theta }{ \min} \frac{1}{2m}\left [ \sum_{i = 1}^{m}\left ( h_{\theta }\left ( x_{i} \right ) - y_{i} \right )^{2} + \lambda \sum_{j=1}^{n} \theta_{j}^{2} \right ]$
优点：易于理解，计算简单；
缺点：不能拟合非线性数据；

logistic回归

首先明确logistic回归不是回归，而是线性分类器。
1、logistic函数表达式为：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_{\theta}\left ( x \right ) = g\left ( \theta ^{T} x\right ) = \frac{1}{1+e^{-\theta ^{T} x}}$
其中：

g (z) = 1 1 + e - z

$g\left ( z\right ) = \frac{1}{1+e^{-z}}$
经变形后得：

ln h θ 1 - h θ = θ T x

$\ln \frac{h_{\theta}}{1 - h_{\theta}} = \theta ^{T} x$

2、logistic回归主要是通过极大似然来估计待求参数 Θ 的值，样本的后验概率为：

L (θ) = p (y ⃗ ∣ X; θ) = \prod i = 1 m p (y (i) ∣ x (i); θ)

$L\left ( \theta \right ) = p\left ( \vec{y} \mid X;\theta \right ) = \prod_{i=1}^{m}p\left ( y^{\left ( i \right )} \mid x^{\left ( i \right )};\theta \right)$

= \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$= \prod_{i=1}^{m}\left ( h_{\theta }\left ( x^{\left ( i \right )} \right ) \right )^{y^{\left ( i \right )}}\left ( 1- h_{\theta }\left ( x^{\left ( i \right )} \right ) \right )^{1-y^{\left ( i \right )}}$
其中：