2021-08-02

最新推荐文章于 2024-10-17 20:50:47 发布

Serious 高冷

最新推荐文章于 2024-10-17 20:50:47 发布

阅读量149

点赞数 1

分类专栏：机器学习文章标签：二叉树数据结构

本文链接：https://blog.csdn.net/will68/article/details/119336120

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

2021魔鬼训练作业及总结

符号	文字	涵义	备注
x	x	标量	小写字母
$\mathbf{x}$	\mathbf{x}	向量	小写字母
$\mathbf{X}$	\mathbf{X}	矩阵、集合	大写字母
$\mathbf{x}^{\mathrm{T}}$	\mathbf{x}^{\mathrm{T}}	向量转置	T 表示 transpose

集合的表示与运算

问：1. 令 $\mathbf{A}=\{3,5\}$ , 写出 $2^\mathbf{A}$ .

答： $2^\mathbf{A}=\{ \emptyset, \{3\}, \{5\}, \{3,5\} \}$

问：2. 展开 $2^\emptyset$ .

答： $2^\emptyset=\{\emptyset\}$

问：3. 令 $\mathbf{A}=\{5,6,7,8,9\}$ ,写出 $\mathbf{A}$ 的其他两种表示法。

答：集合主要有两种表示方法，分别是枚举法、谓词法、和图示法，题目中使用的是枚举法。

谓词法： $\mathbf{A}=\{x | x \in \mathbf{N},5\le x\le9\}$ 或者 $\mathbf{A}=\{x \in \mathbf{N}|5\le x\le9\}$
1. 图示法：略

总结： $\mathbf{A} 的幂集2^\mathbf{A}，其实就是\mathbf{A}的所有子集$ 。

问：自己出数据，做一个 $\times 2 与 2 \times 4的矩阵乘法$ 。
答：
$\begin{aligned} \mathbf{A}\mathbf{B} =& \begin{bmatrix} 1 &2 \\ 3 &4 \\ 5 &6 \end{bmatrix}\cdot \begin{bmatrix} 1 &2 &3 &4 \\ 5 &6 &7 &8 \end{bmatrix} \\ =& \begin{bmatrix} 1 \times{1} +2 \times{5}&1 \times{2}+2\times{6} &1 \times{3} +2 \times{7}&1 \times{4}+2\times{8} \\ 3 \times{1} +4 \times{5}&3 \times{2}+4\times{6} &3 \times{3} +4 \times{7}&3 \times{4}+4\times{8} \\ 5 \times{1} +6 \times{5}&5 \times{2}+6\times{6} &5 \times{3} +6 \times{7}&5 \times{4}+6\times{8} \end{bmatrix}\\ =& \begin{bmatrix} 11 &14 &17 &20\\ 23 &26 &31 &36\\ 35 &38 &45 &52 \end{bmatrix} \end{aligned}$

集合的二元关系

问：1. 令 $\mathbf{A} = \{ 1 , 2 , 5 , 8 , 9 \}$ , 写出 $\mathbf{A}$ 上的 “模 2 同余” 关系及相应的划分。
答： 1. $\mathbf{A}$ 上的 “模 2 同余” 关系为 $\mathbf{R}=\{ (a,b) \in\mathbf{A} \times \mathbf{A} | a \mod{2}=b \mod 2\}=\{(1,5),(1,9),(5,9),(2,8)\}$

相应的划分为 $\mathcal{P}=\{\{1,5,9\},\{2,8\}\}$

问： 2. $\mathbf{A} = \{1, 2, 5, 8, 9\}$ , 自己给定两个关系 $\mathbf{R}_1 和 \mathbf{R}_2$ ，并计算 $\mathbf{R}_1\circ \mathbf{R}_2$ , $\mathbf{R}_1^+, \mathbf{R}_1^\star$ 。
答：自定义系分别为 $\mathbf{R_1},\mathbf{R_2}$
$\mathbf{R_1}=\{(a,b) \in \mathbf{A} \times \mathbf{B} | a-b=-1\}=\{(1,2),(8,9)\}$
$\mathbf{R}_2=\{(a,b) \in \mathbf{A} \times \mathbf{B}| a \mod b=0 \wedge a\neq b\}=\{(2,1),(5,1),(8,1),(9,1),(8,2)\}$

$\mathbf{R}_2\circ \mathbf{R}_1=\{(1,1),(2,1),(2,2)\}$
$|\mathbf{A}|=5$
$\mathbf{R}_1^0=\{(1,1),(2,2),(5,5),(8,8),(9,9)\}$
$\mathbf{R}_1^1=\{(1,2),(8,9)\}$
$\mathbf{R}_1^2=\mathbf{R}_1^3=\mathbf{R}_1^4=\mathbf{R}_1^5=\emptyset$
$\mathbf{R}_1^+=\bigcup_{i=1}^{|\mathbf{A}|}R^i=\{(1,2),(8,9)\}$

$\mathbf{R}_1^\ast=\bigcup_{i=0}^{|\mathbf{A}|}R^i=\{(1,2),(8,9),(1,1),(2,2),(5,5),(8,8),(9,9)\}$

函数

问：1. 举例说明对函数的认识
答：函数即为用数学的方法描述了一种映射关系，包含三个要素，定义域、值域、和映射关系。就好比一个设备系统，送进原材料，加工成想要的产品，比如一个面包机，添入面粉和酵母，一段时间后就加工成白白胖胖的面包一样；也类似于软件代码中的一个方法（函数），输入参数，函数计算出返回值。例子中面包机只能接受面粉，而不能接受大米，就好比是函数的定义域，面包机只能加工成面包，而不能加工成蛋糕，就好比是函数的值域，这个加工过程就类似函数的映射关系。我理解，世间的万事万物之间的关系都可以用一个函数来表述，只不过函数的复杂程度不同罢了，有的关系已经被发现了，比如牛顿的第二运动定律等，就可以用一个函数表达式表述，然而，还有很多未被发现和认识的关系。
机器学习就应该是用一种已知的函数关系推导出我们需要而又未知的函数关系。推到出的函数关系，就是用来分类事物和预测新的事件，而已知的函数关系就是我们正在研究算法，能掌握更多的这样的函数关系，也就能干更多种预测和分类的活，从已知函数模型到未知函数模型的推导，就交给了机器。（以上均为个人臆想，欢迎斧正）

向量/矩阵的范数

问：1. 自己给定一个矩阵并计算其各种范数
$\mathbf{A}=\begin{bmatrix} a &b &c \\ d &e &f \end{bmatrix},其中abcdef \neq 0$

$\Vert\mathbf{A}\Vert_0=6$
$\Vert\mathbf{A}\Vert_1=a+b+c+d+e+f$
$\Vert\mathbf{A}\Vert_2=\sqrt{a^2+b^2+c^2+d^2+e^2+f^2}$
$\Vert\mathbf{A}\Vert_3=\sqrt[3]{a^3+b^3+c^2+d^3+e^3+f^3}$
$\Vert\mathbf{A}\Vert_n=\sqrt[n]{a^n+b^n+c^n+d^n+e^n+f^n}$
$\Vert\mathbf{A}\Vert_{\infty}=\max\{|a|,|b|,|c|,|d|,|e|,|f|\}$

min 与 argmin

问：解释推荐系统: 问题、算法与研究思路 2.1 中的优化目标

$\min \sum_{(i,j)\in \Omega}(f(\mathbf{x}_i,\mathbf{t}_j)-r_{ij})^2$

答：应该是优化任务的目标函数，就是让预测值 $f(\mathbf{x}_i,\mathbf{t}_j)$ 与真实值 $r_{ij}$ 差距（即绝对值）最小，也就可以用预测值代替真实值。而绝对函数在定义域上是不可导的，不方便通过梯度下降等方法寻找最小值，所以使用了2次方代替绝对值。

累加、累乘与积分

问：1. 将向量下标为偶数的分量 ( $x_2, x_4,\cdots$ ) 累加, 写出相应表达式.
答： $\sum_{i=2,4\cdots} x_i$

问：2. 各出一道累加、累乘、积分表达式的习题, 并给出标准答案.

答：
$\mathbf{X}=\{1,2,3,4\}$

$\sum_{i=1,x_i\in\mathbf{X}}^4x_i=10$

$\prod_{i=1,x_i\in\mathbf{X}}^4x_i=24$

$\int_1^{3}x^2\mathrm{d}x=8.6666$

问：3. 你使用过三重累加吗? 描述一下其应用.

答：在做彩色图像相关处理时，常会遇到三维数据，图像的宽w高h和通道c。

问：4. 给一个常用的定积分, 将手算结果与程序结果对比.

答: $\int_1^{3}x^2\mathrm{d}x=8.6666$

    delta = 1e-5
    x = 1.0
    integration = 0
    while x <= 3.0:
        integration += x *x * delta
        x += delta

    print(x)
    >>8.666626666761239

线性回归

问：自己写一个小例子 (n =3，m=1) 来验证最小二乘法.

$\mathbf{X}=\begin{bmatrix}x_1 &x_2 &x_3\end{bmatrix}, \mathbf{W}^\mathrm{T}={\begin{bmatrix}\mathbf{w_1},\mathbf{w_2},\mathbf{w_3}\end{bmatrix}^\mathrm{T}}$

$x_1$	$x_2$	$x_3$	$y$
1.2	3.2	3.1	3.6
3.4	1.2	2.3	2.1
5.3	3.4	5.1	3.6

预测模型为 $f(x,w)=\mathbf{X}\mathbf{W}$

优化目标函数为： $\arg\min_w\left(f(x_i)-y_i\right)^2 =(1.2w_1+3.2w_2+3.1w_3-3.6)^2+\\(3.4w_1+1.2w_2+2.3w_3-2.1)^2+\\(5.3w_1+3.4w_2+5.1w_3-3.6)^2$
解出 $\mathbf{W}$

Logistic 回归

自己推导一遍, 并描述这个方法的特点 (不少于 5 条).
一个线性模型可以描述为：
$f(x)=\mathbf{w}\mathbf{x}， f(x) \in \mathbb{R}$
sigmoid 函数：
$sigmoid(x)=\frac{1}{1+e^{-x}}$
为了让 $f (x)$ 转化为概率模型，那么就需要将 $f (x)$ 的取值映射到[0,1]，那么sigmoid函数就可以实现该功能。
$P(y|\mathbf{x};\mathbf{w})=\frac{1}{1+e^{-\mathbf{wx}}}$
对于二分类问题， $y$ 的取值为 ${0,1\}$ ，则上式可统一表示为：
$P(y_i|x_i;\mathbf{w})=P(y_i=1|x_i;\mathbf{w})^{y_i}(1-P(y_i=0|\mathbf{x};\mathbf{w})^{1-y_{i}}$
优化目标为：
$\argmax_w L(x)=\prod_{i=1}^{i=n}{P(y_i|x_i;\mathbf{w})} \tag{1}$
对上式取对数得：
$\begin{aligned} \log{L(x)}=&\sum_{i=1}^n{P(y_i|x_i;\mathbf{w})}\\ =&\sum y_i\log{P(y_i=1|x_i;\mathbf{w})}+(1-y_i)\log(1-P(y_i=0|x_i;\mathbf{w}))\\ =&\sum{y_i\log{\frac{P(y_i=1|x_i;\mathbf{w})}{1-P(y_i=0|x_i;\mathbf{w})}}+1-P(y_i=0|\mathbf{x};\mathbf{w})}\\ =&\sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned}$
对 $\mathbf{w}$ 求偏导：
$\begin{aligned} \nabla{L(x)} =& \frac{\partial{\log L(x)}}{\partial\mathbf{w}}\\ = &\sum_{i=1}^n{y_i\mathbf{x}_i}-\frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_i\\ =&\sum_{i=1}^n({y_i -\frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}})\mathbf{x}_i \end{aligned}$
使用梯度下降法求解：
$\mathbf{w}^{t+1}=\mathbf{w}^t-\alpha\nabla{L(x)}$
该方法具备一下特点：

可以将值域为实属范围转化为[0,1]，实现概率的映射；
针对连乘采用对数的处理办法，转化为连加操作；
采用梯度下降法求解最优解；
目标函数有点类似于交叉熵；
在化简的时候，充分利用对数的特点。

图与网络

问：1. 写出下图的邻接矩阵

答： $\begin{bmatrix} 0 &1 &1 &1 \\ 1 &0 &1 &0 \\ 1 &1 &0 &1 \\ 1 &0 &1 &0 \end{bmatrix}$
问：2. 定义无向网络。
答：Definition an undirected net is a tuple $(\mathbf{V},w)$ , where $\mathbf{V}$ is the set of nodes, and $w$ is the weight of edge $v_i,v_j)$ , $\forall{i,j}$ , $w( v_i , v_j )=w(v_j, v_i)$ .

树

问：1. 自己画一棵树, 将其元组各部分写出来 (特别是函数 $p$ )。
答：在这里插入图片描述
$T=(\mathbf{V},r,p)$
其中
$\mathbf{V}=\{v_0, v_1, v_2, v_3,v_4,v_5\}$ ,
$r=v_0$ ,
$p(v_0)=\phi$ ,
$p(v_2)=p(v_3)=p(v_4)=v_1$ ,
$p(v_1)=p(v_5)=v_0$ 。

问：2. 针对该树, 将代码中的变量值写出来 (特别是 parent 数组)。
答：

public class Tree {
   /**
    * 节点数. 表示节点 v_0 至 v_{n-1}.
    */
   int n=5;
   
   /**
    * 根节点. 0 至 n-1.
    */
   int root=0;
   
   /**
    * 父节点.
    */
   int[] parent;

   /**
    * 构造一棵树, 第一个节点为根节点, 其余节点均为其直接子节点, 也均为叶节点.
    */
   public Tree(int paraN) {
   	n = paraN;
   	parent = new int[n];
   	parent[0] = -1; // -1 即 \phi
   	parent[1] =  0;
   	parent[2] =  1;
   	parent[3] =  1;
   	parent[4] =  1;
   	parent[5] =  0;
   }// Of the constructor
}//Of class Tree

m叉树

问：1. 画一棵三叉树, 并写出它的 child 数组。
答：在这里插入图片描述
给定节点 $\mathbf{V}$ ，和字符表 $\Sigma$ 如下：
$\begin{aligned} \mathbf{V}=&\{v_1,v_2,v_3,v_4,v_5,v_6\}\\ \Sigma=&\{1,2,3\} \end{aligned}$
得child 数组：
$c=\{(v_0,1,v_1),(v_0,2,v_5),(v_0,3,v_6),\\ (v_1,1,v_2),(v_1,2,v_3),(v_1,3,v_4),\\ (v_2,1,-1),(v_2,2,-1),(v_2,3,-1),\\ (v_3,1,-1),(v_3,2,-1),(v_3,3,-1),\\ (v_4,1,-1),(v_4,2,-1),(v_4,3,-1),\\ (v_5,1,-1),(v_5,2,-1),(v_5,3,-1),\\ (v_6,1,-1),(v_6,2,-1),(v_6,3,-1) \}$
问：3. 按照贴子风格, 重新定义树. 提示: 还是应该定义 parent 函数, 字母表里面只有一个元素.
答：Let $\phi$ be the empty node, a tree is a quadruple $=(\mathbf{V},r,\Sigma,p )$ , where

$\mathbf{V}$ is the set of nodes;
$r$ is the set of root;
$\Sigma=\{-1\}$ is the alphabet;
$p:(\mathbf{V} \cup \{\phi\}) \times \Sigma^* \to \mathbf{V} \cup \{\phi\}, \forall v\in\mathbf{V}, \exist!n \ge 0$
s.t. $\in \Sigma^*, p^n(v,s) =r$

问：4. 根据图、树、m-叉树的学习, 谈谈你对元组的理解.
答：元组有点类似面向对象语言中的object，object中的属性乃是元组中的值，这些属性可以是各种数据类型，比如整型、字符型、枚举、object，函数等。元组也是一样，可以容纳各种类型数据，如集合、函数和元组等，我理解为使用将各种相关数据联合在一起用以描述一个对象或者系统。

决策表

问题：定义一个标签分布系统, 即各标签的值不是 0/1, 而是 $[0, 1]$ 区间的实数, 且同一对象的标签和为 1。
答：A Lable Distribution System is $S=(\mathbf{X},\mathbf{Y})$ ，where $\mathbf{X}=[x_{ij}]_{m\times n}, 0 \le x_{ij} \le 1$ , $\sum_{j=1}^n x_{\mathrm{k}j}=1, 1 \le \mathrm{k} \le m, \mathbf{Y}=[1,2,3\cdots,d]^n$ .

问题

一个数值型的分类系统可以表示为 $S=(\mathbf{X},\mathbf{Y})$ ，而符号型的决策系统则描述成了 $S=(\mathbf{U},\mathbf{C},\mathbf{D},\mathbf{V},I)$ or $S=(\mathbf{U},\mathbf{C},\mathbf{D})$ ，对比两类决策系统，后者多了表示实例的 $\mathbf{U}$ 。

为什么后者必须需要 $\mathbf{U}$ ，而数值型的决策系统不需要？
答：考虑到集合不是可重集，要较真的话，数值型决策表也需要 $\mathbf{U}$ .否则两行数据相同，元素就相同了。
准确地描述一个决策系统（或者其他系统）需要哪些要素，有什么套路吗？
答：按这次培训的套路来就行。要不就多读点书，特别是《形式语言与自动机理论》，然后就觉得很自然了。