机器学习数学语言（8.3作业）

最新推荐文章于 2024-06-13 18:50:27 发布

波比波

最新推荐文章于 2024-06-13 18:50:27 发布

阅读量357

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xjx19991226/article/details/119346036

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.决策表

写出本例中的 $\mathbf{U}$ , $\mathbf{C}$ , $\mathbf{D}$ 和 $\mathbf{V}$ 注: 最后两个属性为决策属性

$\mathbf{U}=\{x_1, x_2, x_3, x_4, x_5, x_6, x_7\}$ is the set of instances,
$\mathbf{C}=\text{\{Headache,Temperature,Lymphocyte,Leukocyte,Eosinophil,Heartbeat\}}$
$\mathbf{D}=\text{\{Normal,Abnomal,Yes,No\}}$ is the set of decisional attributes,
$\mathbf{V}=\bigcup_{a \in \mathbf{C} \cup \mathbf{D}}\mathbf{V_a}$
$\mathbf{V_a}$ is the domain of $\in \mathbf{C} \cup \mathbf{D}$
定义一个标签分布系统, 即各标签的值不是 $[0, 1]$ 区间的实数, 且同一对象的标签和为 1.
A Label Distribution system is a tuple $(\mathbf X, \mathbf Y)$ , where
$\mathbf X = [x_{ij}]_{n \times m} \in \mathbb R^{n \times m}$ is the data matrix, and $\mathbf{x}_i = [x_{i1}, \dots, x_{im}]$ is an instance;
$\mathbf Y = [y_{ik}]_{n \times l} \in [0, 1]^{n \times l}$ is the lable matrix, and $\mathbf{y}_i = [y_{i1}, \dots, y_{il}]$ is the label vector of $\mathbf{x}_i$
satisfying
- $\forall \mathbf y_i \subset \mathbf Y, \sum_{t = 1}^{l}y_{it} = 1$ .
$n$ is the number of instances;
$m$ is the number of features;
$l$ is the number of distribution labels.

示例讲解

分析论文中数学表达式
论文：机器学习的原理及其在气候预测中的潜在应用

(1). $\sum_{i=1}^{m} \left ( \hat{y} - y_{i}\right )^2$
其中， $\hat{y}$ 表示 $x$ 通过含 $\theta_{1}^{\circ}$ 和 $\theta_{2}^{\circ}$ 这两个参数的式子求得， $y_{i}$ 表示实际的 $x$ 对应的值， $\left(\hat{y} - y_{i}\right )^2$ 是求对应同一个 $x$ , 预测值和实际值的差距，即误差，该值越大，说明误差越大，前面的 $\sum_{i=1}^{m}$ 求和符号表示，每一个例子的误差之和。整个式子就是求预测值和实际值的误差和，针对所有的例子。

(2). $\Theta^1=\Theta^0-\alpha \times \nabla f\left ( \Theta \right )|\Theta ^0$

(3). $\Theta^2=\Theta^1-\alpha \times \nabla f\left ( \Theta \right )|\Theta ^1$
其中(2), (3)都是相同的意思，都是为了找最小的 $\Theta(\theta_{1},\theta_{2})$
对于(2), $\Theta_{0}$ 表示储存一组参数 $(\theta_{1}^{0},\theta_{2}^{0})$ , $\alpha$ 是一个常数，主要是记录 $\Theta^0$ 到 $\Theta^1$ 的方向， $\alpha$ 很小， $\nabla f\left ( \Theta \right )|\Theta ^0$ 是在 $\Theta_{0}$ 这点的导函数所对应的值。式子最终的目的就是求 $\Theta_{1}$ , 根据这个式子迭代，就可以一点一点逼近最小的 $\Theta(\theta_{1},\theta_{2})$ .

(4). $f(\Theta)=\frac{1}{2m}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right )^\mathbf{T}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right )$
由文章上文知道： $\mathbf{X}=\begin{bmatrix} x_1 & 1 \\ x_2 & 1 \\ \vdots & \vdots \\ x_{20} & 1 \end{bmatrix}$ , $\mathbf{\Theta }=\begin{bmatrix} \theta_1 \\ \theta_2 \end{bmatrix}$ , $\mathbf{Y}=\begin{bmatrix} y_1\\ y_2 \\ \vdots \\y_{20} \end{bmatrix}$
其中， $\mathbf{X}\cdot\Theta-\mathbf{Y}$ 的结果是一个 $20\times1$ 的矩阵（该文章上有20个例子），每一项表示对应的 $x$ 的 $\hat{y}-y$ ， $\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right )^\mathbf{T}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right )$ 的结果是一个数，这个数是 $\sum_{i=1}^{m} \left ( \hat{y} - y_{i}\right )^2$ ， $\frac{1}{m}$ 是表示平均到每一份上， $\frac{1}{2}$ 是为了后续求导时不再有多余的常量（根据文章里说的）。
(4) 式表示损失函数。
(5). $\nabla{f}(\Theta)=\frac{1}{m} \mathbf{X}^{\mathbf{T}}\left ( \mathbf{X}\cdot \Theta -\mathbf{Y} \right )$ 是(4)式的导函数，当导函数在某处可导且为0时，该点的 $\Theta$ 值就是最小的值。

波比波

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习数学语言（8.3作业）

1.决策表写出本例中的 U\mathbf{U}U, C\mathbf{C}C, D\mathbf{D}D 和 V\mathbf{V}V 注: 最后两个属性为决策属性U={x1,x2,x3,x4,x5,x6,x7}U=\{x_1, x_2, x_3, x_4, x_5, x_6, x_7\}U={x1,x2,x3,x4,x5,x6,x7} is the set of instances,C={Yes,No,High,Normal,Low}\mathbf{C}=\{Yes,No,Hig
复制链接

扫一扫