Machine Learning-Chapter 1

最新推荐文章于 2024-09-13 11:18:00 发布

齐铭_

最新推荐文章于 2024-09-13 11:18:00 发布

阅读量210

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45986528/article/details/106588740

版权

Chapter 1 : Introduction

1 Machine Learning Introduction

1.1 AI vs ML vs DL

AI: Enables machines to mimic human behavior
ML: Use statistical methods to enable machines to improve with experience
DL: A kind of ML which makes the multi-layer neural network feasible

1.2 Machine Learning Process

$D a t a C o l l e c t i o n - > D a t a p r e p a r a t i o n - > T r a i n i n g - > E v a l u a t i o n - > T u n i n g$

1.3 Machine Learning Approaches

Supervised Learning
Unsupervised Learning
Semi-supervised Learning
Reinforcement Learning

1.4 Supervised Learning

The goal is to learn the mapping between a set of inputs and outputs

1.4.1 Classification

The output could be a category.

1.4.2 Regression

The output could be a real-world scalar.

1.5 Unsupervised Learning

Only input data is provided and there are no labeled example outputs to aim for

1.5.1 Clustering

Most used and is the act of creating groups with different characteristics.

1.5.2 Association

Used for recommending or finding related items.

1.5.3 Anomaly Detection

Used to separate and detect strange occurrences.

1.5.4 Dimensionality Reduction

Aim to find the most important features to reduce the original features.

1.6 Semi-supervised Learning

A mix between supervised and unsupervised approaches

1.6.1 Generative Adversarial Networks

GANs use two neural networks,a generator and discriminator and by battling against each other they both become increasingly skilled

1.7 Reinforcement Learning

In this approach,occasional positive and negative feedback is used to reinforce behavior

2 Matrix Calculus

2.1 Matrix Calculus

2.1.1 Define Jacobi Matrix

$R^{n} \rightarrow R^{m} . \quad \vec{y}=f(\vec{x}), \quad \vec{y} \in R^{m}, \quad \vec{x} \in R^{n}$

$\frac{\partial \vec{y}}{\partial \vec{x}} \Rightarrow$ Jacobi Matrix

Example:

2 dimensions:

$R^{2} \rightarrow R, \quad y=f\left(x_{1}, x_{2}\right)$

$\left.\nabla f\left(x_{1}, x_{2}\right)=[ \frac{\partial f\left(x_{1}, x_{2}\right)}{\partial x_{1}}, \quad \frac{\partial f\left(x_{1}, x_{2}\right)}{\partial x_{2}}\right]$

$R^{2} \rightarrow R^{2}, \quad \vec{y}=\left[\begin{array}{l}y_{1} \\ y_{2}\end{array}\right]=\left[\begin{array}{l}f_2\left(x_{1}, x_{2}\right) \\ f_{2}\left(x_{1}, x_{1}\right)\end{array}\right]$

$J_{x}=\left[\begin{array}{l}\nabla f_{1}\left(x_{1}, x_{2}\right) \\ \nabla f_{2}\left(x_1, x_{2}\right)\end{array}\right]=\left[\begin{array}{ll}\frac{\partial f_{1}\left(x_{1}, x_{2}\right)}{\partial x_{1}} & , \frac{\partial f_{1}\left(x_{1}, x_{2}\right)}{\partial x_{2}} \\ \frac{\partial f_{2}\left(x_{1}, x_{0}\right)}{\partial x_{1}} & , \frac{\partial f_{2}\left(x_{1} x_{1}\right)}{\partial x_{2}}\end{array}\right]$

m dimensions:

$\vec{y}\in R^{m}, \quad \vec{x} \in R^{n}.$

$J_{x}=\frac{\partial \vec{y}}{\partial \vec{x}}=\left[\begin{array}{c}\nabla f_{1}(\vec{x}) \\ \nabla f_{2}(\vec{x}) \\ \vdots \\ \nabla f_{m}(\vec{x})\end{array}\right]$

2.1.2 Vector Sum Reduction

$y=\sum_{i=1}^{n} f_{i}(\vec{x}): R^{n} \rightarrow R$ , $\vec{x} \in R^{n} $ , $(\vec{y}=f(\vec{x})) \Rightarrow \vec{x} \in R^{n}, \vec{y} \in R^{m}, \quad R^{n} \rightarrow R^{m}$ : $J_{x}: m \times n$

$R^{n} \rightarrow R: \quad J_{x}: 1 \times n$

$\frac{\partial y}{\partial \vec{x}}=\left[\frac{\partial y}{\partial x_{1}}, \frac{\partial y}{\partial x_{2}}, \cdots, \frac{\partial y}{\partial x_{n}}\right]$

$=[\frac{\partial}{\partial x_{1}} \sum_{i=1}^{n} f_{i}(\vec{x}),\frac{\partial}{\partial x_{2}} \sum_{i=1}^{n} f_{i}(\vec{x}),....,\frac{\partial}{\partial x_{n}} \sum_{i=1}^{n} f_{i}(\vec{x})]$

$=[\sum_{i=1}^{n} \frac{\partial f_i \cdot(\vec{x})}{\partial x_{1}},\sum_{i=1}^{n} \frac{\partial f_i \cdot(\vec{x})}{\partial x_{2}},...,\sum_{i=1}^{n} \frac{\partial f_i \cdot(\vec{x})}{\partial x_{n}}]$

2.1.3 Vector Chain Rules

1) Single-variable Chain Rule: $\frac{d y}{d x}=\frac{d y}{d u} \cdot \frac{d u}{d x}$

2) Single-variable total-derivative Chain Rule:

$\frac{\partial f\left(x, u_{1}, u_{2}, \cdots, u_{n}\right)}{\partial x}=\frac{\partial f}{\partial x}+\frac{\partial f}{\partial u_{1}} \frac{\partial u_{1}}{\partial x}+\frac{\partial f}{\partial u_{2}} \frac{\partial u_{2}}{\partial x}+\cdots \cdots+\frac{\partial f}{\partial u_{n}} \cdot \frac{\partial u_{n}}{\partial x}$ $=\frac{\partial f}{\partial x}+\sum_{i=1}^{n} \frac{\partial t}{\partial u_{i}} \frac{\partial u_{i}}{\partial x}$

3) Vector Chain Rules:

$\rightarrow R^{2}$ , $\vec{y}=\left[\begin{array}{c}f_1(x) \\ f_{2}(x)\end{array}\right]$

$\vec{y}=\left[\begin{array}{l}y_{1} \\ y_{2}\end{array}\right]=\left[\begin{array}{l}f_{1}(x) \\ f_{2}(x)\end{array}\right]=\left[\begin{array}{l}\ln \left(x^{2}\right) \\ \sin (3 x)\end{array}\right]$

$\vec{g}=\left[\begin{array}{l}g_{1}(x) \\ g_{2}(x)\end{array}\right]=\left[\begin{array}{l}x^{2} \\ 3 x\end{array}\right]$

$\left[\begin{array}{c}f_{1}(x) \\ f_2(x)\end{array}\right]=\left[\begin{array}{c}f_{1}(\vec{g}) \\ f_{2}(\vec{g})\end{array}\right]=\left[\begin{array}{c}\ln \left(g_{1}\right) \\ \sin \left(g_{2}\right)\end{array}\right]$

$\frac{\partial \vec{y}}{\partial x} \quad R \rightarrow R^{2}: \quad J_{x}: 2 \times 1$

$\frac{\partial \vec{y}}{\partial x}=\left[\begin{array}{l}\left.\frac{\partial f_1 (\vec{g})}{\partial x}\right] \\ \frac{\partial f_2 (\vec{g})}{\partial x}\end{array}\right]$ = $\left[\begin{array}{l}\frac{\partial f_{1}}{\partial g_{1}} \cdot \frac{\partial y_{1}}{\partial x}+\frac{\partial f_{1}}{\partial g_{2}} \frac{\partial g_{2}}{\partial x} \\ \frac{\partial f_{2}}{\partial g_{1}} \cdot \frac{\partial y_{1}}{\partial x}+\frac{\partial f_{2}}{\partial g_{2}} \cdot \frac{\partial g_{2}}{\partial x}\end{array}\right]$ = $\left[\begin{array}{cc}\frac{1}{g_1} 2 x+0 \\ 0 & +\cos \left(g_{2}\right) \cdot 3\end{array}\right]$

$\frac{\partial}{x} \vec{f}(\vec{g}(x))$ = $\frac{\partial \vec{f}}{\partial \vec{g}} \cdot \frac{\overrightarrow{\partial g}}{\partial x}$

2.1.4 Matrix Differention

consistent

Proposition 5:

$\vec{y}=\mathbb{A} \vec{x}, \quad \vec{y} \in R^{m}, \quad \vec{x} \in R^{n}, \mathbb{A} \in R^{m \times n}$ , $\mathbb{A}$ doesn’t depend on $\vec{x}$

$\frac{\partial \vec{y}}{\partial \vec{x}}=\mathbb{A}$

Proposition 6:

$\vec{y}=\mathbb{A} \vec{x}, \quad \vec{y}\in R^{n}, \quad \vec{x} \in R^{n}, \quad \mathbb{A} \in R^{m \times n}$ , $\mathbb{A}$ doesn’t depend on $\vec{x}$ , Suppose $\vec{x}$ is a function of $ \vec{z} $ , $\mathbb{A}$ is independent of $\vec{z}$ ,

Then: $\frac{\partial \vec{y}}{\partial \vec{z}}=\mathbb{A} \cdot \frac{\partial \vec{x}}{\partial \vec{z}}$

Pf : $\frac{\partial \vec{y}}{\partial \vec{z}}=\frac{\partial \vec{y}}{\partial \vec{x}} \cdot \frac{\partial \vec{x}}{\partial \vec{z}}=\mathbb{A} \cdot \frac{\partial \vec{x}}{\partial \vec{z}}$

Proposition 7:

$\alpha=\vec{y}^{\top} \mathbb{A} \vec{x}, \quad \alpha \in R^{\prime}, \quad \vec{y} \in R^{m}, \quad \vec{x} \in R^{n}$ , $\mathbb{A} \in R^{m \times n}$ , $\mathbb{A}$ is independent of $\vec{x},\vec{y}$ .

Then : $\frac{\partial \partial}{\partial \vec{x}}=\vec{y}^{\prime} \mathbb{A}$ , proposition 5 : $\vec{y}^{\prime} \mathbb{A}=B$ , $\alpha =B \vec{x}$ $\Rightarrow$ $\frac{\partial \alpha}{\partial \vec{x}}=B=\vec{y}^{\prime} \mathbb{A}$

Then : $\frac{\partial \alpha}{\partial \dot{y}}=\vec{x}^{T} \cdot \mathbb{A}$

Pf : $\alpha =\vec{y}^{\top} \mathbb{A} \vec{x} \quad, \quad \alpha^{\top}=\alpha $ , $\alpha=\alpha^{T}=\left(\vec{y}^{\tau} \mathbb{A} \vec{x}\right)^{T}=\vec{x}^{\prime} \mathbb{A}^{T} \vec{y}$

$\frac{\partial \partial}{\partial y}=\vec{x}^{\top} \mathbb{A}^{\top}$

Proposition :

Let the scalar $\alpha$ be defined by : $\alpha=\vec{y}^{T} \cdot \vec{x}, \quad \vec{y} \in R^{n}, \quad \vec{x} \in R^{n}$ , $\vec{y} , \vec{x}$ are function vector $\vec{z}$ , then : $\frac{\partial \alpha}{\partial z}=\vec{x}^{\top} \frac{\partial \vec{y}}{\partial \vec{z}}+\vec{y} \frac{\partial \vec{x}}{\partial \vec{z}}$

Pf : $\frac{\partial \alpha}{\partial z}=\frac{\partial \alpha}{\partial \vec{y}} \frac{\partial \vec{y}}{\partial z}+\frac{\partial \alpha}{\partial \vec{x}} \frac{\partial \vec{x}}{\partial \vec{z}}=\vec{x}^{\top} \frac{\partial \vec{y}}{\partial \vec{z}}+\vec{\psi} \frac{\partial \vec{x}}{\partial z}$

Proposition 8 :

$\alpha=\vec{x}^{\prime} \mathbb{A} \cdot \vec{x}, \quad \vec{x} \in R^{n} , \quad \mathbb{A} \in R^{n x n}$ , $\mathbb{A}$ doesn’t depend on x,then : $\frac{\partial \alpha}{\partial x}=\vec{x}^{\top}\left(\mathbb{A}+\mathbb{A}^{\top}\right)$

Pf : $\alpha=\vec{x}^{\prime} \mathbb{A} \cdot \vec{x}, \quad \vec{y}=\vec{x}$

$\alpha=\vec{y}^{\prime} \mathbb{A} \cdot \vec{x} \quad, \quad \vec{y} \cdot \vec{x}, \quad \vec{x} , \vec{x}$

Proposition 10 :

$\frac{\partial \alpha}{\partial \vec{x}}=\frac{\partial \alpha}{\partial \vec{y}} \cdot \frac{\partial \vec{y}}{\partial \vec{x}}+\frac{\partial \partial}{\partial \vec{x}} \cdot \frac{\partial \vec{x}}{\partial \dot{x}}$

$=(\mathbb{A} \cdot \vec{x})^{\top}+\vec{y}^{\prime}\mathbb{A}=\vec{x}^{\top}\mathbb{A}^{\top}+\vec{x}^{\prime} \mathbb{A}=\vec{x}^{r}\left(\mathbb{A}+\mathbb{A}^{\top}\right)$