（一）有监督学习及优化

最新推荐文章于 2023-05-08 19:13:40 发布

学为好人

最新推荐文章于 2023-05-08 19:13:40 发布

阅读量898

点赞数

分类专栏：计算机视觉编程相关文章标签：算法优化函数

编程相关同时被 2 个专栏收录

29 篇文章 2 订阅

订阅专栏

计算机视觉

21 篇文章 2 订阅

订阅专栏

本博客及后续博客翻译和记录学习“Unsupervised Feature Learning and Deep Learning Tutorial”的收获及体会！

1 线性回归

1.1 问题形式化

作为新手，就从如何实现线性回归开始吧！我们需要熟练掌握目标函数、目标梯度和目标优化。这些基本的概念、方法和工具将是接下来学习更加复杂的算法的基础。切记打牢地基莫忽视！
线性回归的目标是根据一个输入向量 $\mathbf{x}\in {{\mathbb{R}}^{n}}$ 预测一个目标值 $y$ 。例如：预测一个房子的价格， $y$ 表示房价，特征 $\mathbf{x}$ 中的元素 ${{\mathbf{x}}_{j}}$ 表示房子的属性（大小、房间数目）。假设给定很多个房子，第 $i$ 个房子的特征为 ${{\mathbf{x}}^{(i)}}$ ，其对应价格为 ${{y}^{(i)}}$ 。我们的目标是寻找一个函数 $y=h(\mathbf{x})$ ，使得对每个训练样本 ${{y}^{(i)}}\approx h({{\mathbf{x}}^{(i)}})$ 。如果我们在足够多的样本上成功找到了这样一个函数 $h(\mathbf{x})$ ，那么我们希望 $h(\mathbf{x})$ 能够很好预测一个房子的价格，即便该房子是一个新房子且价格未知。
为了找到这样一个函数 $h(\mathbf{x})$ 使得 ${{y}^{(i)}}\approx h({{\mathbf{x}}^{(i)}})$ ，我们需要先确定如何表示函数 $h(\mathbf{x})$ 。让我们先从做简单的线性函数开始 ${{h}_{\theta }}(\mathbf{x})=\sum\nolimits_{j}{{{\theta }_{j}}{{\mathbf{x}}_{j}}}={{\theta }^{T}}\mathbf{x}$ 。这里， ${{h}_{\theta }}(\mathbf{x})$ 表示一个函数家族，选择不同参数 $\theta$ 得到不同的函数。有了 $h(\mathbf{x})$ 的表示，我们任务变为寻找一个参数 $\theta$ ，使得 ${{h}_{\theta }}({{\mathbf{x}}^{(i)}})$ 尽可能逼近 ${{y}^{(i)}}$ 。特别的，我们希望寻找一个 $\theta$ ，最小化下式

J (θ) = 1 2 \sum i (h θ (x (i)) - y (i)) 2 = 1 2 \sum i (θ T x (i) - y (i)) 2

$J(\theta )=\frac{1}{2}\sum\limits_{i}{{{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}^{2}}}=\frac{1}{2}\sum\limits_{i}{{{\left( {{\theta }^{T}}{{\mathbf{x}}^{(i)}}-{{y}^{(i)}} \right)}^{2}}}$

该函数称为“代价函数”，用于度量一个特征选择的 $\theta$ 在预测 ${{y}^{(i)}}$ 时的误差。通常，也称为“损失函数”、“惩罚函数”或“目标函数”。

1.2 函数最小化

现在的目标是选择 $\theta$ 使 $J(\theta )$ 最小。有很多方法可以最小化该目标。现在，我们来回顾一下函数最小化最常用算法的一些事实。我们需要完成有关 $J(\theta )$ 的两个事实：计算 $J(\theta )$ 和 ${{\nabla }_{\theta }}J(\theta )$ 。然后，优化的剩下部分就可以交给优化算法去寻找最好的 $\theta$ 。（梯度 ${{\nabla }_{\theta }}J(\theta )$ 是一个向量，指向 $J(\theta )$ 下降最快的方向，这样只要小小地改变 $\theta$ 就可以降低或增加 $J(\theta )$ ）
给定一组训练集 $\{{{\mathbf{x}}^{(i)}},{{y}^{(i)}}\}$ ， $J(\theta )$ 的梯度可表示如下：

\nabla θ J (θ) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial J ( θ ) \partial θ 1 . . . \partial J ( θ ) \partial θ j . . . \partial J ( θ ) \partial θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, \partial J ( θ ) \partial θ j = \sum i x (i) j (h θ (x (i)) - y (i))

${{\nabla }_{\theta }}J(\theta )=\left[ \begin{matrix} \frac{\partial J(\theta )}{\partial {{\theta }_{1}}} \\ \begin{matrix} \begin{matrix} \begin{matrix} ... \\ \frac{\partial J(\theta )}{\partial {{\theta }_{j}}} \\ \end{matrix} \\ ... \\ \end{matrix} \\ \frac{\partial J(\theta )}{\partial {{\theta }_{n}}} \\ \end{matrix} \\ \end{matrix} \right],\ \ \ \ \frac{\partial J(\theta )}{\partial {{\theta }_{j}}}=\sum\limits_{i}{\mathbf{x}_{j}^{(i)}\left( {{h}_{\theta }}({{\mathbf{x}}^{(i)}})-{{y}^{(i)}} \right)}$

2 逻辑斯特回归

上节学习了如何预测连续变量（房价）。实际中，我们也需要区预测离散变量（分类问题）。逻辑斯特回归就是一个简单的用于分类决策的算法。
线性回归中，我们尝试使用线性函数 $y={{h}_{\theta }}(\mathbf{x})={{\theta }^{T}}\mathbf{x}$ 去预测第 $i$ 个样本 ${{\mathbf{x}}^{(i)}}$ 的 ${{y}^{(i)}}$ 的值。很明显这不适合预测二值标签（ ${{y}^{(i)}}\in \{0,1\}$ ）。在逻辑斯特回归中，我们使用一个不同的函数来预测一个给定的样本是属于类“1”，还是属于类“0”。该函数的形式如下：

P (y = 1 | x) = h θ (x) = 1 1 + exp ( - θ T x ) \equiv σ (- θ T x)

$P(y=1|\mathbf{x})={{h}_{\theta }}(\mathbf{x})=\frac{1}{1+\exp (-{{\theta }^{T}}\mathbf{x})}\equiv \sigma (-{{\theta }^{T}}\mathbf{x})$

P (y = 0 | x) = 1 - P (y = 1 | x) = 1 - h θ (x)

$P(y=0|\mathbf{x})=1-P(y=1|\mathbf{x})=1-{{h}_{\theta }}(\mathbf{x})$

函数 $\sigma (z)\equiv 1/\left( 1+\exp (-z) \right)$ 通常称为“sigmoid”或“logistic”函数。他是一个S型函数，将 $z$ 的值映射到 $[0,1]$ 范围，故我们可以理解 ${{h}_{\theta }}(\mathbf{x})$ 为一个概率。我们的目的是寻找 $\theta$ 的一个值使得当 $\mathbf{x}$ 属于类“1”时概率 $P(y=1|\mathbf{x})={{h}_{\theta }}(\mathbf{x})$ 是大的，而当 $\mathbf{x}$ 属于类“0”时概率是小的（此时概率 $P(y=0|\mathbf{x})$ 是大的）。给定一组二值标签样本 $\{({{\mathbf{x}}^{(i)}},{{y}^{(i)}}):i=1,...,m\}$ ，下面的代价函数可度量一个给定的 ${{h}_{\theta }}$ 是否是好的：

J (θ) = - \sum i (y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i))))

$J(\theta )=-\sum\limits_{i}{\left( {{y}^{(i)}}\log ({{h}_{\theta }}({{\mathbf{x}}^{(i)}}))+(1-{{y}^{(i)}})\log (1-{{h}_{\theta }}({{\mathbf{x}}^{(i)}})) \right)}$

##############################################################
上式代价函数是根据最大似然得到的：

L = \prod i (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$L=\prod\limits_{i}{{{\left( {{h}_{\theta }}({{\mathbf{x}}^{(i)}}) \right)}^{y(i)}}{{\left( 1-{{h}_{\theta }}({{\mathbf{x}}^{(i)}}) \right)}^{1-y(i)}}}$

$J(\theta )$ 对应于负的对数似然如下：

J (θ) = - log L = - log \prod i (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i) = - \sum i (log (h θ (x (i))) y (i) + log (1 - h θ (x (i))) 1 - y (i)) = - \sum i (y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i))))

$\begin{align} & J(\theta )=-\log L=-\log \prod\limits_{i}{{{({{h}_{\theta }}({{\mathbf{x}}^{(i)}}))}^{{{y}^{(i)}}}}{{(1-{{h}_{\theta }}({{\mathbf{x}}^{(i)}}))}^{1-{{y}^{(i)}}}}} \\ & \ \ \ \ \ \ =-\sum\limits_{i}{\left( \log {{({{h}_{\theta }}({{\mathbf{x}}^{(i)}}))}^{{{y}^{(i)}}}}+\log {{(1-{{h}_{\theta }}({{\mathbf{x}}^{(i)}}))}^{1-{{y}^{(i)}}}} \right)} \\ & \ \ \ \ \ \ =-\sum\limits_{i}{\left( {{y}^{(i)}}\log ({{h}_{\theta }}({{\mathbf{x}}^{(i)}}))+(1-{{y}^{(i)}})\log (1-{{h}_{\theta }}({{\mathbf{x}}^{(i)}})) \right)} \\ \end{align}$

##############################################################
对于一个训练样本而言，上式中的两项只有一项不为零（这取决于标签 ${{y}^{(i)}}$ 是0或1）。当 ${{y}^{(i)}}=1$ ，最小化代价意味着我们需要使 ${{h}_{\theta }}({{\mathbf{x}}^{(i)}})$ 变大，当 ${{y}^{(i)}}=0$ ，我们希望使 $1-{{h}_{\theta }}({{\mathbf{x}}^{(i)}})$ 变大。
现在我们有了一个代价函数来度量一个给定的假设 ${{h}_{\theta }}$ 是否是对训练样本好的。我们通过最小化 $J(\theta )$ 来找到最佳的 $\theta$ 。一旦我们完成，我们就可以分类一个新的样本是属于“1”还是属于“0”（通过检查两类的概率，若 $P(y=1|\mathbf{x})>P(y=0|\mathbf{x})$ ，则判为“1”，否则判为“0”，等同于判断 ${{h}_{\theta }}(\mathbf{x})>0.5$ ）。
为了最小化 $J(\theta )$ ，我们使用和线性回归一样的工具。我们需要提供计算 $J(\theta )$ 和 ${{\nabla }_{\theta }}J(\theta )$ 的函数， $J(\theta )$ 关于 ${{\theta }_{j}}$ 的偏导数如下：

\partial J ( θ ) \partial θ j = \sum i x (i) j (h θ (x (i)) - y (i))

$\frac{\partial J(\theta )}{\partial {{\theta }_{j}}}=\sum\limits_{i}{\mathbf{x}_{j}^{(i)}\left( {{h}_{\theta }}({{\mathbf{x}}^{(i)}})-{{y}^{(i)}} \right)}$

向量形式的整体梯度如下：

\nabla θ J (θ) = \sum i x (i) (h θ (x (i)) - y (i))

${{\nabla }_{\theta }}J(\theta )=\sum\limits_{i}{{{\mathbf{x}}^{(i)}}\left( {{h}_{\theta }}({{\mathbf{x}}^{(i)}})-{{y}^{(i)}} \right)}$

该式本质上与线性回归的梯度一样，只不过此时的 ${{h}_{\theta }}(\mathbf{x})=\sigma (-{{\theta }^{T}}\mathbf{x}).$

3 Softmax回归

3.1 引言

Softmax回归，也称多项式逻辑斯特回归，是逻辑斯特回归的广义版本，用于处理多类分类问题。在逻辑斯特回归中，我们假设标签是二值的，即 ${{y}^{(i)}}\in \{0,1\}$ 。我们使用该分类器来区分两类手写字符。Softmax回归允许我们处理 ${{y}^{(i)}}\in \{1,...,K\}$ 问题，其中 $K$ 为类别个数。
回顾逻辑斯特回归，我们有一组共 $m$ 个带标签训练样本 $\{({{\mathbf{x}}^{(i)}},{{y}^{(i)}}):i=1,...,m\}$ ，其中输入特征 ${{\mathbf{x}}^{(i)}}\in {{\mathbb{R}}^{n}}$ ，标签 ${{y}^{(i)}}\in \{0,1\}$ 。假设

h θ (x) = 1 1 + exp ( - θ T x )

${{h}_{\theta }}(\mathbf{x})=\frac{1}{1+\exp (-{{\theta }^{T}}\mathbf{x})}$

模型参数 $\theta$ 通过最小化如下代价函数求得：

J (θ) = - \sum i (y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i))))

$J(\theta )=-\sum\limits_{i}{\left( {{y}^{(i)}}\log ({{h}_{\theta }}({{\mathbf{x}}^{(i)}}))+(1-{{y}^{(i)}})\log (1-{{h}_{\theta }}({{\mathbf{x}}^{(i)}})) \right)}$

在Softmax回归中，我们关注多类分类，故标签 $y$ 取自 $K$ 个不同的值。给定带标签训练样本 $\{({{\mathbf{x}}^{(i)}},{{y}^{(i)}}):i=1,...,m\}$ ，此时 ${{y}^{(i)}}\in \{1,...,K\}$ 。如MNIST数据集， $K=10$ 表示不同类。
给定一个测试输入 $\mathbf{x}$ ，我们希望假设可以估计概率 $P(y=k|\mathbf{x})$ ， $k=1,...,K$ 。即估计在 $K$ 个不同类别上估计类别的概率。故我们的假设应该输出一个 $K$ 维的向量，表征 $K$ 个估计的概率。具体地，假设

h θ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ P (y = 1 | x; θ) P (y = 2 | x; θ) . . . P (y = K | x; θ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = 1 \sum K j = 1 exp ( θ ( j ) T x ) ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ exp (θ (1) T x) exp (θ (2) T x) . . . exp (θ (K) T x) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

${{h}_{\theta }}(\mathbf{x})=\left[ \begin{matrix} \begin{matrix} \begin{matrix} P(y=1|\mathbf{x};\theta ) \\ P(y=2|\mathbf{x};\theta ) \\ \end{matrix} \\ ... \\ \end{matrix} \\ P(y=K|\mathbf{x};\theta ) \\ \end{matrix} \right]=\frac{1}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}}\left[ \begin{matrix} \begin{matrix} \begin{matrix} \exp ({{\theta }^{(1)T}}\mathbf{x}) \\ \exp ({{\theta }^{(2)T}}\mathbf{x}) \\ \end{matrix} \\ ... \\ \end{matrix} \\ \exp ({{\theta }^{(K)T}}\mathbf{x}) \\ \end{matrix} \right]$

其中， ${{\theta }^{(1)}},{{\theta }^{(2)}},...,{{\theta }^{(K)}}\in {{\mathbb{R}}^{n}}$ 是模型参数， $1/\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}$ 用于标准化分布，即求和为一。
为了方便，用 $\theta$ 表示模型参数，以列的方式将 ${{\theta }^{(1)}},{{\theta }^{(2)}},...,{{\theta }^{(K)}}$ 连接起来。

θ = ⎡ ⎣ ⎢ | θ (1) | | θ (2) | | . . . | | θ (k) | ⎤ ⎦ ⎥

$\theta =\left[ \begin{matrix} \begin{matrix} \begin{matrix} \begin{matrix} | \\ {{\theta }^{(1)}} \\ | \\ \end{matrix} & \begin{matrix} | \\ {{\theta }^{(2)}} \\ | \\ \end{matrix} \\ \end{matrix} & \begin{matrix} | \\ ... \\ | \\ \end{matrix} \\ \end{matrix} & \begin{matrix} | \\ {{\theta }^{(k)}} \\ | \\ \end{matrix} \\ \end{matrix} \right]$

3.2 代价函数

首先，引入指示函数 $1\{\cdot \}$ ， $1\{\text{true}\}=1$ ，否则 $1\{\text{false}\}=0$ 。例如 $1\{2+2=4\}=1$ ， $1\{1+1=5\}=0$ 。Softmax回归代价函数

J (θ) = - [\sum i = 1 m \sum k = 1 K 1 {y (i) = k} log P (y (i) = k | x (i); θ)]

$J(\theta )=-\left[ \sum\limits_{i=1}^{m}{\sum\limits_{k=1}^{K}{1\{{{y}^{(i)}}=k\}\log P({{y}^{(i)}}=k|{{\mathbf{x}}^{(i)}};\theta )}} \right]$

其中，

P (y (i) = k | x (i); θ) = exp ( θ ( k ) T x ( i ) ) \sum K j = 1 exp ( θ ( j ) T x ( i ) ) .

$P({{y}^{(i)}}=k|{{\mathbf{x}}^{(i)}};\theta )\text{=}\frac{\exp ({{\theta }^{(k)T}}{{\mathbf{x}}^{(i)}})}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}{{\mathbf{x}}^{(i)}})}}.$

我们无法解析求解 $J(\theta )$ ，故采用迭代优化算法，计算梯度如下：

\nabla θ (k) J (θ) = - [\sum i = 1 m x (i) (1 {y (i) = k} - P (y (i) = k | x (i); θ))] .

${{\nabla }_{{{\theta }^{(k)}}}}J(\theta )=-\left[ \sum\limits_{i=1}^{m}{{{\mathbf{x}}^{(i)}}\left( 1\{{{y}^{(i)}}=k\}-P({{y}^{(i)}}=k|{{\mathbf{x}}^{(i)}};\theta ) \right)} \right].$

##############################################################
代价函数 $J(\theta )$ 是根据最大似然得到的：

L = \prod i = 1 m (\prod k = 1 c P (y (i) = k | x (i); θ) 1 {y (i) = k})

$L=\prod\limits_{i=1}^{m}{\left( \prod\limits_{k=1}^{c}{P{{({{y}^{(i)}}=k|{{\mathbf{x}}^{(i)}};\theta )}^{1\{{{y}^{(i)}}=k\}}}} \right)}$

J(θ) $J(\theta )$ 对应于负的对数似然如下：

J (θ) = - log L = - \sum i = 1 m (\sum k = 1 c 1 {y (i) = k} log P (y (i) = k | x (i); θ))

$J(\theta )=-\log L=-\sum\limits_{i=1}^{m}{\left( \sum\limits_{k=1}^{c}{1\{{{y}^{(i)}}=k\}\log P({{y}^{(i)}}=k|{{\mathbf{x}}^{(i)}};\theta )} \right)}$

由

h θ (x) = 1 \sum K j = 1 exp ( θ ( j ) T x ) ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ exp (θ (1) T x) exp (θ (2) T x) . . . exp (θ (K) T x) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

${{h}_{\theta }}(\mathbf{x})=\frac{1}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}}\left[ \begin{matrix} \begin{matrix} \begin{matrix} \exp ({{\theta }^{(1)T}}\mathbf{x}) \\ \exp ({{\theta }^{(2)T}}\mathbf{x}) \\ \end{matrix} \\ ... \\ \end{matrix} \\ \exp ({{\theta }^{(K)T}}\mathbf{x}) \\ \end{matrix} \right]$

，令 ${{h}_{\theta }}{{(\mathbf{x})}^{({k}')}}=\frac{\exp ({{\theta }^{({k}')T}}\mathbf{x})}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}}$ ，则

\partial \partial θ ( k ) h θ (x) (k') = \partial \partial θ ( k ) exp ( θ ( k ' ) T x ) \sum K j = 1 exp ( θ ( j ) T x ) = \partial exp ( θ ( k ' ) T x ) \partial θ ( k ) 1 \sum K j = 1 exp ( θ ( j ) T x ) - exp ( θ ( k ' ) T x ) ( \sum K j = 1 exp ( θ ( j ) T x ) ) 2 \partial \sum K j = 1 exp ( θ ( j ) T x ) \partial θ ( k ) = 1 { k ' = k } exp ( θ ( k ' ) T x ) x \sum K j = 1 exp ( θ ( j ) T x ) - exp ( θ ( k ' ) T x ) exp ( θ ( k ) T x ) x ( \sum K j = 1 exp ( θ ( j ) T x ) ) 2 = exp ( θ ( k ' ) T x ) x \sum K j = 1 exp ( θ ( j ) T x ) ⎛ ⎝ 1 {k' = k} - exp ( θ ( k ) T x ) \sum K j = 1 exp ( θ ( j ) T x ) ⎞ ⎠ = h θ (x) (k') x (1 {k' = k} - h θ (x) (k))

$\begin{align} \frac{\partial }{\partial {{\theta }^{(k)}}}{{h}_{\theta }}{{(\mathbf{x})}^{({k}')}} &=\frac{\partial }{\partial {{\theta }^{(k)}}}\frac{\exp ({{\theta }^{({k}')T}}\mathbf{x})}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}} \\ & =\frac{\partial \exp ({{\theta }^{({k}')T}}\mathbf{x})}{\partial {{\theta }^{(k)}}}\frac{1}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}}-\frac{\exp ({{\theta }^{({k}')T}}\mathbf{x})}{{{\left( \sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})} \right)}^{2}}}\frac{\partial \sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}}{\partial {{\theta }^{(k)}}} \\ & =\frac{1\{{k}'=k\}\exp ({{\theta }^{({k}')T}}\mathbf{x})\mathbf{x}}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}}-\frac{\exp ({{\theta }^{({k}')T}}\mathbf{x})\exp ({{\theta }^{(k)T}}\mathbf{x})\mathbf{x}}{{{\left( \sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})} \right)}^{2}}} \\ & =\frac{\exp ({{\theta }^{({k}')T}}\mathbf{x})\mathbf{x}}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}}\left( 1\{{k}'=k\}-\frac{\exp ({{\theta }^{(k)T}}\mathbf{x})}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)T}}\mathbf{x})}} \right) \\ & ={{h}_{\theta }}{{(\mathbf{x})}^{({k}')}}\mathbf{x}\left( 1\{{k}'=k\}-{{h}_{\theta }}{{(\mathbf{x})}^{(k)}} \right) \\ \end{align}$

\nabla θ (k) J (θ) = \partial \partial θ ( k ) - \sum i = 1 m ⎛ ⎝ \sum k' = 1 c 1 {y (i) = k'} log h θ (x (i)) (k') ⎞ ⎠ = - \sum i = 1 m ⎛ ⎝ \sum k' = 1 c 1 {y (i) = k'} 1 h θ ( x ( i ) ) ( k ' ) \partial \partial θ ( k ) h θ (x (i)) (k') ⎞ ⎠ = - \sum i = 1 m ⎛ ⎝ \sum k' = 1 c 1 {y (i) = k'} 1 h θ ( x ( i ) ) ( k ' ) h θ (x (i)) (k') x (i) (1 {k' = k} - h θ (x (i)) (k)) ⎞ ⎠ = - \sum i = 1 m ⎛ ⎝ \sum k' = 1 c 1 {y (i) = k'} x (i) (1 {k' = k} - h θ (x (i)) (k)) ⎞ ⎠ = - \sum i = 1 m x (i) (1 {y (i) = k} - h θ (x (i)) (k))

$\begin{align} {{\nabla }_{{{\theta }^{(k)}}}}J(\theta ) & =\frac{\partial }{\partial {{\theta }^{(k)}}}-\sum\limits_{i=1}^{m}{\left( \sum\limits_{{k}'=1}^{c}{1\{{{y}^{(i)}}={k}'\}\log {{h}_{\theta }}{{({{\mathbf{x}}^{(i)}})}^{({k}')}}} \right)} \\ & \ \ \ \ \ \ \ \ \ \ \ \text{=}-\sum\limits_{i=1}^{m}{\left( \sum\limits_{{k}'=1}^{c}{1\{{{y}^{(i)}}={k}'\}\frac{1}{{{h}_{\theta }}{{({{\mathbf{x}}^{(i)}})}^{({k}')}}}\frac{\partial }{\partial {{\theta }^{(k)}}}{{h}_{\theta }}{{({{\mathbf{x}}^{(i)}})}^{({k}')}}} \right)} \\ & \ \ \ \ \ \ \ \ \ \ \ \text{=}-\sum\limits_{i=1}^{m}{\left( \sum\limits_{{k}'=1}^{c}{1\{{{y}^{(i)}}={k}'\}\frac{1}{{{h}_{\theta }}{{({{\mathbf{x}}^{(i)}})}^{({k}')}}}{{h}_{\theta }}{{({{\mathbf{x}}^{(i)}})}^{({k}')}}{{\mathbf{x}}^{(i)}}\left( 1\{{k}'=k\}-{{h}_{\theta }}{{({{\mathbf{x}}^{(i)}})}^{(k)}} \right)} \right)} \\ & \ \ \ \ \ \ \ \ \ \ \ \text{=}-\sum\limits_{i=1}^{m}{\left( \sum\limits_{{k}'=1}^{c}{1\{{{y}^{(i)}}={k}'\}{{\mathbf{x}}^{(i)}}\left( 1\{{k}'=k\}-{{h}_{\theta }}{{({{\mathbf{x}}^{(i)}})}^{(k)}} \right)} \right)} \\ & \ \ \ \ \ \ \ \ \ \ \ \text{=}-\sum\limits_{i=1}^{m}{{{\mathbf{x}}^{(i)}}\left( 1\{{{y}^{(i)}}=k\}-{{h}_{\theta }}{{({{\mathbf{x}}^{(i)}})}^{(k)}} \right)} \\ \end{align}$

##############################################################

3.3 Softmax参数化属性

Softmax回归有一个不寻常的属性，其参数集是冗余的。假设参数 ${{\theta }^{(1)}},{{\theta }^{(2)}},...,{{\theta }^{(K)}}$ 共同减去一个固定向量 $\psi$ ，则类标签概率

P (y (i) = k | x (i); θ) = exp ( ( θ ( k ) - ψ ) T x ( i ) ) \sum K j = 1 exp ( ( θ ( j ) - ψ ) T x ( i ) ) = exp ( θ ( k ) T x ( i ) ) exp ( - ψ T x ( i ) ) \sum K j = 1 exp ( θ ( j ) T x ( i ) ) exp ( - ψ T x ( i ) ) = exp ( θ ( k ) T x ( i ) ) \sum K j = 1 exp ( θ ( j ) T x ( i ) )

$\begin{align} & P({{y}^{(i)}}=k|{{\mathbf{x}}^{(i)}};\theta )\text{=}\frac{\exp ({{({{\theta }^{(k)}}-\psi )}^{T}}{{\mathbf{x}}^{(i)}})}{\sum\nolimits_{j=1}^{K}{\exp ({{({{\theta }^{(j)}}-\psi )}^{T}}{{\mathbf{x}}^{(i)}})}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \text{=}\frac{\exp ({{\theta }^{(k)}}^{T}{{\mathbf{x}}^{(i)}})\exp (-{{\psi }^{T}}{{\mathbf{x}}^{(i)}})}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)}}^{T}{{\mathbf{x}}^{(i)}})\exp (-{{\psi }^{T}}{{\mathbf{x}}^{(i)}})}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \text{=}\frac{\exp ({{\theta }^{(k)}}^{T}{{\mathbf{x}}^{(i)}})}{\sum\nolimits_{j=1}^{K}{\exp ({{\theta }^{(j)}}^{T}{{\mathbf{x}}^{(i)}})}} \\ \end{align}$

换言之，参数减去常向量 $\psi$ 并不改变预测的概率。故可以说参数存在冗余。由于 $J(\theta )$ 可以由 ${{\theta }^{(1)}},{{\theta }^{(2)}},...,{{\theta }^{(K)}}$ 达到最小，也可以由 ${{\theta }^{(1)}}-\psi ,{{\theta }^{(2)}}-\psi ,...,{{\theta }^{(K)}}-\psi$ 达到最小。但两个目标值是不同的。故，可以令 $\psi ={{\theta }^{(K)}}$ ，将原始的 ${{\theta }^{(K)}}$ 替换为 ${{\theta }^{(K)}}-\psi =\vec{0}$ 向量。故可以消除最后一个参数向量而不影响表示能力。

3.4 与逻辑斯特回归的关系

当 $K=2$ 时，Softmax回归变为逻辑斯特回归，Softmax回归假设的输出为

h θ (x) = 1 exp ( θ ( 1 ) T x ) + exp ( θ ( 2 ) T x ) [exp (θ (1) T x) exp (θ (2) T x)]

${{h}_{\theta }}(\mathbf{x})=\frac{1}{\exp ({{\theta }^{(1)T}}\mathbf{x})+\exp ({{\theta }^{(2)T}}\mathbf{x})}\left[ \begin{matrix} \exp ({{\theta }^{(1)T}}\mathbf{x}) \\ \exp ({{\theta }^{(2)T}}\mathbf{x}) \\ \end{matrix} \right]$

令 $\psi ={{\theta }^{(2)}}$ 可得

h θ (x) = 1 exp ( ( θ ( 1 ) - θ ( 2 ) ) T x ) + exp ( 0 ⃗ T x ) ⎡ ⎣ exp ((θ (1) - θ (2)) T x) exp (0 ⃗ T x) ⎤ ⎦ = 1 exp ( ( θ ( 1 ) - θ ( 2 ) ) T x ) + 1 [exp ((θ (1) - θ (2)) T x) 1]

$\begin{align} & {{h}_{\theta }}(\mathbf{x})=\frac{1}{\exp ({{({{\theta }^{(1)}}-{{\theta }^{(2)}})}^{T}}\mathbf{x})+\exp ({{{\vec{0}}}^{T}}\mathbf{x})}\left[ \begin{matrix} \exp ({{({{\theta }^{(1)}}-{{\theta }^{(2)}})}^{T}}\mathbf{x}) \\ \exp ({{{\vec{0}}}^{T}}\mathbf{x}) \\ \end{matrix} \right] \\ & \ \ \ \ \ \ =\frac{1}{\exp ({{({{\theta }^{(1)}}-{{\theta }^{(2)}})}^{T}}\mathbf{x})+1}\left[ \begin{matrix} \exp ({{({{\theta }^{(1)}}-{{\theta }^{(2)}})}^{T}}\mathbf{x}) \\ 1 \\ \end{matrix} \right] \\ \end{align}$
令

θ′=θ(2)−θ(1) ${\theta }'={{\theta }^{(2)}}-{{\theta }^{(1)}}$ ，则

h θ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ exp ( - θ ' T x ) exp ( - θ ' T x ) + 1 1 exp ( - θ ' T x ) + 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

${{h}_{\theta }}(\mathbf{x})=\left[ \begin{matrix} \frac{\exp (-{{{{\theta }'}}^{T}}\mathbf{x})}{\exp (-{{{{\theta }'}}^{T}}\mathbf{x})+1} \\ \frac{1}{\exp (-{{{{\theta }'}}^{T}}\mathbf{x})+1} \\ \end{matrix} \right]$

该式与逻辑斯特回归一致。