参考教材:《模式识别》吴建鑫著
Problem1-6.5
(a)
$$
由习题6.1可知,rank(X) = rank(X^TX)\
rank(X+Y) \leq rank(X) + rank(Y)\
rank(X^TX) = rank(XX^T)\
\because S_w = \sum_i S_i\
\therefore rank(S_w) \leq \sum_i rank(S_i)\
\because S_i = \sum_{C_{ij}\in C_i}(C_{ij}-\overline C_i)(C_{ij}-\overline C_i)^T\
\therefore rank(S_i) = rank(\sum_{C_{ij}\in C_i}(C_{ij}-\overline C_i)(C_{ij}-\overline C_i)^T)\
= \sum_{C_{ij}\in C_i}rank((C_{ij}-\overline C_i)(C_{ij}-\overline C_i)^T)\
= \sum_{C_{ij}\in C_i}rank((C_{ij}-\overline C_i)^T(C_{ij}-\overline C_i))
= \sum_{C_{ij}\in C_i}1\
\therefore rank(S_w) \leq \sum_i rank(S_i) = \sum_i\sum_{C_{ij}\in C_i}1 =N < D\
\therefore 若N \leq D ,S_w可逆
$$
(b)
$$
\because S_B = \sum_{c=1}^C(m_c - \overline m)(m_c - \overline m)^T\
\overline m = \frac{1}{c}\sum_{c=1}^Cm_c\
\therefore S_B = \sum_{c=1}^C(m_c - \overline m)(m_c - \overline m)^T = \sum_{c=1}C(m_c*m_cT - m_c*\overline m^T - m_c^T\overline m + \overline m*\overline m^T)\
= \sum_{c=1}Cm_c*m_cT - \sum_{c=1}^C m_c*\overline m^T - \sum_{c=1}Cm_cT\overline m + \sum_{c=1}^C\overline m*\overline m^T\
= C * \overline m*\overline m^T - 2 C\overline m*\overline m^T + \sum_{c=1}Cm_c*m_cT\
= \sum_{c=1}Cm_c*m_cT - C * \overline m*\overline m^T\
rank(S_B) = rank( \sum_{c=1}Cm_c*m_cT - C * \overline m*\overline m^T) \
\leq \sum_{c=1}Crank(m_c*m_cT) - rank(C * \overline m*\overline m^T)\
= \sum_{c=1}Crank(m_cTm_c) - rank(C * \overline m^T\overline m)\
= C-1
$$
因为 S B S_B SB的秩小于等于C-1,所以广义特征值问题 S W − 1 S B ω = λ S W ω S_W^{-1}S_B\omega = \lambda S_W\omega SW−1SBω=λSWω最多可以获得C-1个广义特征向量。
©
由(a)可知$ rank(S_w) \leq \sum_i rank(S_i) = \sum_i\sum_{C_{ij}\in C_i}1 =N , 若 N > D , 则 有 可 能 使 得 , 若N>D ,则有可能使得 ,若N>D,则有可能使得rank(S_w) = D \leq N 成 立 , 则 成立,则 成立,则S_w 可 逆 。 若 N > > D , 则 这 种 可 能 性 更 大 , 所 以 可逆。若N>>D, 则这种可能性更大,所以 可逆。若N>>D,则这种可能性更大,所以S_w$可逆的可能性也更大。
(d)
由 算 法 过 程 可 知 X = G − T Q ∴ X T S B X = ( G − T Q ) T S B ( G − T Q ) = Q T G − 1 S B G − T Q ∵ C = G − 1 S B G − T ∴ X T S B X = Q T C Q ∵ Q T C Q 为 对 角 矩 阵 ∴ X T S B X 为 对 角 矩 阵 X T S W X = ( G − T Q ) T S W ( G − T Q ) = Q T G − 1 S W G − T Q ∵ S W = G G T ∴ X T S W X = Q T G − 1 G G T G − T Q = Q T Q 由 对 角 化 过 程 可 知 Q 为 单 位 正 交 矩 阵 ∴ X T S W X = I 由算法过程可知X = G^{-T}Q\\ \therefore X^TS_BX = (G^{-T}Q)^TS_B(G^{-T}Q) = Q^TG^{-1}S_BG^{-T}Q\\ \because C = G^{-1}S_BG^{-T}\\ \therefore X^TS_BX = Q^TCQ\\ \because Q^TCQ为对角矩阵\\ \therefore X^TS_BX为对角矩阵\\ \\ X^TS_WX = (G^{-T}Q)^TS_W(G^{-T}Q) = Q^TG^{-1}S_WG^{-T}Q\\ \because S_W = GG^T\\ \therefore X^TS_WX = Q^TG^{-1}GG^TG^{-T}Q = Q^TQ\\ 由对角化过程可知Q为单位正交矩阵\\ \therefore X^TS_WX = I\\ 由算法过程可知X=G−TQ∴XTSBX=(G−TQ)TSB(G−TQ)=QTG−1SBG−TQ∵C=G−1SBG−T∴XTSBX=QTCQ∵QTCQ为对角矩阵∴XTSBX为对角矩阵XTSWX=(G−TQ)TSW(G−TQ)=QTG−1SWG−TQ∵SW=GGT∴XTSWX=QTG−1GGTG−TQ=QTQ由对角化过程可知Q为单位正交矩阵∴XTSWX=I
广 义 特 征 值 问 题 等 价 于 求 解 S W − 1 S B ω = λ ω S W − 1 S B 的 相 似 对 角 矩 阵 的 对 角 线 元 素 即 为 广 义 特 征 向 量 的 值 ∵ X T S W − 1 S B X = ( G − T Q ) T S W − 1 S B ( G − T Q ) = Q T G − 1 S W − 1 S B G − T Q = Q T G − 1 ( G G T ) − 1 S B G − T Q = Q T G − 1 G − T G − 1 S B G − T Q = Q T I C Q = Q T C Q = X T S B X ∴ 由 矩 阵 相 似 知 识 可 知 , S W − 1 S B 和 X T S B X 相 似 ∵ X T S B X 是 对 角 矩 阵 ∴ X T S B X 的 对 角 元 即 为 所 以 特 征 值 ∵ X T S W − 1 S B X = X T S B X ∴ X 的 列 即 为 对 应 的 广 义 特 征 向 量 广义特征值问题等价于求解S_W^{-1}S_B\omega = \lambda \omega\\ S_W^{-1}S_B的相似对角矩阵的对角线元素即为广义特征向量的值\\ \because X^TS_W^{-1}S_BX = (G^{-T}Q)^TS_W^{-1}S_B (G^{-T}Q) = Q^TG^{-1}S_W^{-1}S_BG^{-T}Q\\ = Q^TG^{-1}(GG^T)^{-1}S_BG^{-T}Q = Q^TG^{-1}G^{-T}G^{-1}S_BG^{-T}Q = Q^TICQ = Q^TCQ = X^TS_BX\\ \therefore 由矩阵相似知识可知,S_W^{-1}S_B和X^TS_BX相似\\ \because X^TS_BX是对角矩阵\\ \therefore X^TS_BX的对角元即为所以特征值\\ \because X^TS_W^{-1}S_BX = X^TS_BX\\ \therefore X的列即为对应的广义特征向量 广义特征值问题等价于求解SW−1SBω=λωSW−1SB的相似对角矩阵的对角线元素即为广义特征向量的值∵XTSW−1SBX=(G−TQ)TSW−1SB(G−TQ)=QTG−1SW−1SBG−TQ=QTG−1(GGT)−1SBG−TQ=QTG−1G−TG−1SBG−TQ=QTICQ=QTCQ=XTSBX∴由矩阵相似知识可知,SW−1SB和XTSBX相似∵XTSBX是对角矩阵∴XTSBX的对角元即为所以特征值∵XTSW−1SBX=XTSBX∴X的列即为对应的广义特征向量
这样得到的X不是单位正交的
Problem2-7.4
(a)
若 不 含 偏 置 项 , 则 f ( x ) = ω T x 那 么 优 化 问 题 为 a r g m i n y ∣ ∣ x − y ∣ ∣ 2 s . t . f ( y ) = 0 拉 格 朗 日 函 数 为 L ( y , λ ) = ∣ ∣ x − y ∣ ∣ 2 − λ ( ω T y + b ) 令 ∂ L ∂ y = 0 可 得 y = x + λ 2 ω 带 入 f ( y ) = 0 可 得 ω T x + λ 2 ω T ω = 0 λ = − 2 ω T x ω T ω x ⊥ = x + λ 2 ω = x − ω T x ω T ω ω z = x − x ⊥ = ω T x ω T ω ω ∣ ∣ z ∣ ∣ = ∣ ∣ ω T x ω T ω ω ∣ ∣ = ∣ ω T x ∣ ∣ ∣ ω ∣ ∣ 则 优 化 问 题 为 m a x ω m i n 1 ≤ i ≤ n ∣ ω T x ∣ ∣ ∣ ω ∣ ∣ s . t . y i f ( x i ) > 01 ≤ i ≤ n 其 中 y i = 1 表 示 正 类 样 本 , y i = − 1 表 示 负 类 样 本 因 为 y i f ( x i ) = ∣ f ( x i ) ∣ = ∣ ω T x i ∣ 所 以 m i n 1 ≤ i ≤ n ∣ ω T x ∣ ∣ ∣ ω ∣ ∣ = m i n 1 ≤ i ≤ n y i ω T x ∣ ∣ ω ∣ ∣ = 1 ∣ ∣ ω ∣ ∣ m i n 1 ≤ i ≤ n y i ω T x 取 c = m i n 1 ≤ i ≤ n y i ω ∗ T x , 则 m i n 1 ≤ i ≤ n y i ( ω ∗ c ) T x = 1 > 0 所 以 优 化 问 题 等 价 于 m a x ω m i n 1 ≤ i ≤ n ∣ ω T x i ∣ ∣ ∣ ω ∣ ∣ ⇔ m a x ω 1 ∣ ∣ ω ∣ ∣ ⇔ m a x ω 1 2 ω T ω s . t . y i ω T x i ≥ 1 1 ≤ i ≤ n 若不含偏置项,则f(x) = \omega^Tx\\ 那么优化问题为 argmin_y ||x-y||^2 \quad s.t. f(y) = 0\\ 拉格朗日函数为L(y,\lambda) = ||x-y||^2 -\lambda(\omega^Ty+b)\\ 令\frac{\partial L}{\partial y} = 0可得y = x + \frac{\lambda}{2}\omega\\ 带入f(y) = 0可得\omega^Tx + \frac{\lambda}{2}\omega^T\omega = 0\\ \lambda = -\frac{2\omega^Tx}{\omega^T\omega}\\ x_\perp = x + \frac{\lambda}{2}\omega = x - \frac{\omega^Tx}{\omega^T\omega}\omega\\ z = x - x_\perp = \frac{\omega^Tx}{\omega^T\omega}\omega\\ ||z|| = || \frac{\omega^Tx}{\omega^T\omega}\omega|| = \frac{|\omega^Tx|}{||\omega||}\\ 则优化问题为max_\omega\quad min_{1≤i≤n} \quad \frac{|\omega^Tx|}{||\omega||}\\ s.t. \quad y_if(x_i) > 0 1≤i≤n\\ 其中y_i=1表示正类样本,y_i = -1表示负类样本\\ 因为y_if(x_i) = |f(x_i)| = |\omega^Tx_i|\\ 所以min_{1≤i≤n} \frac{|\omega^Tx|}{||\omega||} = min_{1≤i≤n} \frac{y_i\omega^Tx}{||\omega||} = \frac{1}{||\omega||}min_{1≤i≤n}y_i\omega^Tx\\ 取c = min_{1≤i≤n} \quad y_i\omega^{*T}x,则min_{1≤i≤n}y_i(\frac{\omega*}{c})^Tx = 1 >0\\ 所以优化问题等价于max_{\omega} \frac{min_{1≤i≤n} |\omega^Tx_i|}{||\omega||} \Leftrightarrow max_\omega \frac{1}{||\omega||}\Leftrightarrow max_\omega \frac12\omega^T\omega\\ s.t. y_i\omega^Tx_i ≥1 \quad 1≤i≤n 若不含偏置项,则f(x)=ωTx那么优化问题为argminy∣∣x−y∣∣2s.t.f(y)=0拉格朗日函数为L(y,λ)=∣∣x−y∣∣2−λ(ωTy+b)令∂y∂L=0可得y=x+2λω带入f(y)=0可得ωTx+2λωTω=0λ=−ωTω2ωTxx⊥=x+2λω=x−ωTωωTxωz=x−x⊥=ωTωωTxω∣∣z∣∣=∣∣ωTωωTxω∣∣=∣∣ω∣∣∣ωTx∣则优化问题为maxωmin1≤i≤n∣∣ω∣∣∣ωTx∣s.t.yif(xi)>01≤i≤n其中yi=1表示正类样本,yi=−1表示负类样本因为yif(xi)=∣f(xi)∣=∣ωTxi∣所以min1≤i≤n∣∣ω∣∣∣ωTx∣=min1≤i≤n∣∣ω∣∣yiωTx=∣∣ω∣∣1min1≤i≤nyiωTx取c=min1≤i≤nyiω∗Tx,则min1≤i≤nyi(cω∗)Tx=1>0所以优化问题等价于maxω∣∣ω∣∣min1≤i≤n∣ωTxi∣⇔maxω∣∣ω∣∣1⇔maxω21ωTωs.t.yiωTxi≥11≤i≤n
(b)
由 ( a ) 已 知 优 化 问 题 为 m a x ω 1 2 ω T ω s . t . y i ω T x i ≥ 1 1 ≤ i ≤ n 拉 格 朗 日 函 数 为 L ( ω , α ) = 1 2 ω T ω − ∑ i = 1 n α i ( y i ( ω T x i ) − 1 ) s . t . α i ≥ 0 1 ≤ i ≤ n ∂ L ∂ ω = 0 ⇒ ω = ∑ i = 1 n α i y i x i 所 以 K K T 条 件 为 : ω = ∑ i = 1 n α i y i x i α i ≥ 0 y i ω T x i ≥ 1 α i ( y i ω T x i − 1 ) = 0 所 以 有 1 2 ω T ω = 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j ∑ i = 1 n α i y i ω T x i = ω T ω = ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j 所 以 拉 格 朗 日 函 数 为 − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j + ∑ i = 1 n α i 对 偶 形 式 为 m a x α − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j + ∑ i = 1 n α i s . t . α i ≥ 0 1 ≤ i ≤ n ⇔ m i n α 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j − ∑ i = 1 n α i s . t . α i ≥ 0 1 ≤ i ≤ n 因 为 α 为 有 限 维 , 所 以 一 定 存 在 一 个 最 大 的 α i , 设 C = m a x 1 ≤ i ≤ n ( α i ) 则 对 偶 问 题 为 m i n α 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j − ∑ i = 1 n α i s . t . 0 ≤ α i ≤ C 1 ≤ i ≤ n 由 K K T 条 件 , ω = ∑ i = 1 n α i y i x i 所 以 若 α 的 最 优 解 为 α ∗ , ω ∗ = ∑ i = 1 n α i ∗ y i x i 由(a)已知优化问题为max_\omega \frac12\omega^T\omega\\ s.t. y_i\omega^Tx_i ≥1 \quad 1≤i≤n\\ 拉格朗日函数为L(\omega,\alpha) = \frac12\omega^T\omega - \sum_{i=1}^{n}\alpha_i(y_i(\omega^Tx_i ) - 1)\\ s.t. \alpha_i \geq 0 \quad 1 \leq i \leq n\\ \frac{\partial L}{\partial \omega} = 0 \Rightarrow \omega = \sum_{i=1}^{n}\alpha_iy_ix_i\\ 所以KKT条件为:\\ \omega = \sum_{i=1}^{n}\alpha_iy_ix_i\\ \alpha_i \geq 0\\ y_i\omega^Tx_i \geq1\\ \alpha_i(y_i\omega^Tx_i-1) = 0\\ 所以有\frac12\omega^T\omega = \frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ \sum_{i=1}^n\alpha_iy_i\omega^Tx_i = \omega^T\omega = \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ 所以拉格朗日函数为-\frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j + \sum_{i=1}^n\alpha_i\\ 对偶形式为 max_\alpha -\frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j + \sum_{i=1}^n\alpha_i\\ s.t. \alpha_i \geq 0 \quad 1 \leq i \leq n \\ \Leftrightarrow\\ min_\alpha \frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j - \sum_{i=1}^n\alpha_i\\ s.t. \alpha_i \geq 0 \quad 1 \leq i \leq n\\ 因为\alpha为有限维,所以一定存在一个最大的\alpha_i,设C = max_{1\leq i\leq n}(\alpha_i)\\ 则对偶问题为min_\alpha \frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j - \sum_{i=1}^n\alpha_i\\ s.t.0 \leq \alpha_i \leq C \quad 1 \leq i \leq n\\ 由KKT条件,\omega = \sum_{i=1}^{n}\alpha_iy_ix_i\\ 所以若\alpha的最优解为\alpha^*,\omega^* = \sum_{i=1}^{n}\alpha^*_iy_ix_i 由(a)已知优化问题为maxω21ωTωs.t.yiωTxi≥11≤i≤n拉格朗日函数为L(ω,α)=21ωTω−i=1∑nαi(yi(ωTxi)−1)s.t.αi≥01≤i≤n∂ω∂L=0⇒ω=i=1∑nαiyixi所以KKT条件为:ω=i=1∑nαiyixiαi≥0yiωTxi≥1αi(yiωTxi−1)=0所以有21ωTω=21i=1∑nj=1∑nαiαjyiyjxiTxji=1∑nαiyiωTxi=ωTω=i=1∑nj=1∑nαiαjyiyjxiTxj所以拉格朗日函数为−21i=1∑nj=1∑nαiαjyiyjxiTxj+i=1∑nαi对偶形式为maxα−21i=1∑nj=1∑nαiαjyiyjxiTxj+i=1∑nαis.t.αi≥01≤i≤n⇔minα21i=1∑nj=1∑nαiαjyiyjxiTxj−i=1∑nαis.t.αi≥01≤i≤n因为α为有限维,所以一定存在一个最大的αi,设C=max1≤i≤n(αi)则对偶问题为minα21i=1∑nj=1∑nαiαjyiyjxiTxj−i=1∑nαis.t.0≤αi≤C1≤i≤n由KKT条件,ω=i=1∑nαiyixi所以若α的最优解为α∗,ω∗=i=1∑nαi∗yixi
©
通 过 对 x 增 加 一 个 额 外 的 维 度 , 所 增 加 的 维 度 总 有 一 个 常 数 值 1 , 将 任 意 x ∈ R d 转 化 为 R ( d + 1 ) 空 间 上 的 x ^ 之 后 对 数 据 集 x ^ 进 行 训 练 学 习 得 到 一 个 不 含 偏 置 项 的 ω ^ , 那 么 这 个 ω ^ 的 最 后 一 维 的 值 即 为 在 R d 空 间 上 含 偏 置 项 的 S V M 的 b b = ( ∑ i = 1 n α i ∗ y i x i ) d + 1 通过对x增加一个额外的维度,所增加的维度总有一个常数值1,将任意x∈R^d转化为R^{(d+1)}空间上的\hat{x}\\ 之后对数据集\hat{x}进行训练学习得到一个不含偏置项的\hat\omega,那么这个\hat\omega 的最后一维的值即为在R^d空间上含偏置项的SVM的b\\ b =(\sum_{i=1}^{n}\alpha^*_iy_ix_i)_{d+1} 通过对x增加一个额外的维度,所增加的维度总有一个常数值1,将任意x∈Rd转化为R(d+1)空间上的x^之后对数据集x^进行训练学习得到一个不含偏置项的ω^,那么这个ω^的最后一维的值即为在Rd空间上含偏置项的SVM的bb=(i=1∑nαi∗yixi)d+1
Problem3-8.6
由 题 意 可 知 P ( x ∣ y = 1 ) = 1 2 π ∑ e x p ( − ( x − μ 1 ) 2 2 ∑ ) P ( x ∣ y = 2 ) = 1 2 π ∑ e x p ( − ( x − μ 2 ) 2 2 ∑ ) P ( y = 1 ∣ x ; θ ) = P ( x ∣ y = 1 ) P ( y = 1 ) P ( x ; θ ) P ( y = 2 ∣ x ; θ ) = P ( x ∣ y = 2 ) P ( y = 2 ) P ( x ; θ ) 因 为 y ∗ = a r g m a x ( P ( y = i ∣ x ; θ ) ) 所 以 y ∗ = { 1 i f P ( y = 1 ∣ x ; θ ) > P ( y = 2 ∣ x ; θ ) 2 i f P ( y = 1 ∣ x ; θ ) ≤ P ( y = 2 ∣ x ; θ ) 又 因 为 { 当 P ( y = 1 ∣ x ; θ ) > P ( y = 2 ∣ x ; θ ) 时 P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) > 1 当 P ( y = 1 ∣ x ; θ ) ≤ P ( y = 2 ∣ x ; θ ) 时 P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) ≤ 1 所 以 y ∗ = { 1 i f P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) > 1 2 i f P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) ≤ 1 因 为 P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) = P ( x ∣ y = 1 ) P ( y = 1 ) P ( x ; θ ) P ( x ∣ y = 2 ) P ( y = 2 ) P ( x ; θ ) = P ( x ∣ y = 1 ) P ( y = 1 ) P ( x ∣ y = 2 ) P ( y = 2 ) 且 P ( y = 1 ) = P ( y = 2 ) = 0.5 所 以 P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) = P ( x ∣ y = 1 ) P ( x ∣ y = 2 ) = 1 2 π ∑ e x p ( − ( x − μ 1 ) 2 2 ∑ ) 1 2 π ∑ e x p ( − ( x − μ 2 ) 2 2 ∑ ) = e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) 所 以 y ∗ = { 1 i f e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) > 1 2 i f e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) ≤ 1 因 为 { e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) > 1 i f ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ > 0 e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) ≤ 1 i f ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ≤ 0 所 以 y ∗ = { 1 i f ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ > 0 2 i f ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ≤ 0 即 y ∗ = { 1 i f 2 ( μ 1 − μ 2 ) x + μ 1 2 − μ 2 2 2 ∑ > 0 2 i f 2 ( μ 1 − μ 2 ) x + μ 1 2 − μ 2 2 2 ∑ ≤ 0 所 以 令 ω = ( 2 ( μ 1 − μ 2 ) 2 ∑ ) T , b = μ 1 2 − μ 2 2 2 ∑ 则 该 预 测 规 则 可 被 重 写 成 如 下 的 的 能 使 形 式 : y ∗ = { 1 i f ω T x + b > 0 2 i f ω T x + b ≤ 0 其 中 ω = ( 2 ( μ 1 − μ 2 ) 2 ∑ ) T , b = μ 1 2 − μ 2 2 2 ∑ 由题意可知\\ P(x|y=1) = \frac{1}{\sqrt{2\pi}\sum}exp(-\frac{(x-\mu_1)^2}{2\sum})\\ P(x|y=2) = \frac{1}{\sqrt{2\pi}\sum}exp(-\frac{(x-\mu_2)^2}{2\sum})\\ P(y=1|x;\theta) = \frac{P(x|y=1)P(y=1)}{P(x;\theta)}\\ P(y=2|x;\theta) = \frac{P(x|y=2)P(y=2)}{P(x;\theta)}\\ 因为y^* = argmax(P(y=i|x;\theta))\\ 所以y^* = \left\{ \begin{aligned} & 1 \quad if P(y=1|x;\theta) > P(y=2|x;\theta)\\ & 2 \quad if P(y=1|x;\theta) ≤ P(y=2|x;\theta)\\ \end{aligned} \right. \\ 又因为 \left\{ \begin{aligned} & 当 P(y=1|x;\theta) > P(y=2|x;\theta)时\quad \frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} > 1\\ & 当 P(y=1|x;\theta) ≤ P(y=2|x;\theta)时\quad \frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} ≤ 1\\ \end{aligned} \right. \\ 所以y^* = \left\{ \begin{aligned} & 1 \quad if \frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} > 1\\ & 2 \quad if \frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} ≤ 1\\ \end{aligned} \right. \\ 因为\frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} = \frac{ \frac{P(x|y=1)P(y=1)}{P(x;\theta)}}{\frac{P(x|y=2)P(y=2)}{P(x;\theta)}} = \frac{P(x|y=1)P(y=1)}{P(x|y=2)P(y=2)}\\ 且 P(y=1) = P(y = 2) = 0.5\\ 所以\frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} = \frac{P(x|y=1)}{P(x|y=2)} \\= \frac{\frac{1}{\sqrt{2\pi}\sum}exp(-\frac{(x-\mu_1)^2}{2\sum})}{ \frac{1}{\sqrt{2\pi}\sum}exp(-\frac{(x-\mu_2)^2}{2\sum})} = exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum})\\ 所以y^* = \left\{ \begin{aligned} & 1 \quad if\quad exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum}) > 1\\ & 2 \quad if\quad exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum}) ≤ 1\\ \end{aligned} \right. \\ 因为\left\{ \begin{aligned} & exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum}) > 1 \quad if \frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum} > 0\\ &exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum}) ≤ 1 \quad if \frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum} ≤ 0\\ \end{aligned} \right. \\ 所以y^* = \left\{ \begin{aligned} & 1 \quad if\quad \frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum} > 0\\ & 2 \quad if\quad \frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum} ≤ 0\\ \end{aligned} \right. \\ 即y^* = \left\{ \begin{aligned} & 1 \quad if\quad \frac{2(\mu_1-\mu_2)x + \mu_1^2-\mu_2^2}{2\sum} > 0\\ & 2 \quad if\quad \frac{2(\mu_1-\mu_2)x + \mu_1^2-\mu_2^2}{2\sum} ≤ 0\\ \end{aligned} \right. \\ 所以令\omega = (\frac{2(\mu_1-\mu_2)}{2\sum})^T, \quad b = \frac{\mu_1^2-\mu_2^2}{2\sum}\\ 则该预测规则可被重写成如下的的能使形式:\\ y^* = \left\{ \begin{aligned} &1 \quad if \omega^Tx + b > 0\\ &2 \quad if \omega^Tx + b ≤0 \end{aligned} \right. \\ 其中\omega = (\frac{2(\mu_1-\mu_2)}{2\sum})^T, \quad b = \frac{\mu_1^2-\mu_2^2}{2\sum} 由题意可知P(x∣y=1)=2π∑1exp(−2∑(x−μ1)2)P(x∣y=2)=2π∑1exp(−2∑(x−μ2)2)P(y=1∣x;θ)=P(x;θ)P(x∣y=1)P(y=1)P(y=2∣x;θ)=P(x;θ)P(x∣y=2)P(y=2)因为y∗=argmax(P(y=i∣x;θ))所以y∗={1ifP(y=1∣x;θ)>P(y=2∣x;θ)2ifP(y=1∣x;θ)≤P(y=2∣x;θ)又因为⎩⎪⎪⎪⎨⎪⎪⎪⎧当P(y=1∣x;θ)>P(y=2∣x;θ)时P(y=2∣x;θ)P(y=1∣x;θ)>1当P(y=1∣x;θ)≤P(y=2∣x;θ)时P(y=2∣x;θ)P(y=1∣x;θ)≤1所以y∗=⎩⎪⎪⎪⎨⎪⎪⎪⎧1ifP(y=2∣x;θ)P(y=1∣x;θ)>12ifP(y=2∣x;θ)P(y=1∣x;θ)≤1因为P(y=2∣x;θ)P(y=1∣x;θ)=P(x;θ)P(x∣y=2)P(y=2)P(x;θ)P(x∣y=1)P(y=1)=P(x∣y=2)P(y=2)P(x∣y=1)P(y=1)且P(y=1)=P(y=2)=0.5所以P(y=2∣x;θ)P(y=1∣x;θ)=P(x∣y=2)P(x∣y=1)=2π∑1exp(−2∑(x−μ2)2)2π∑1exp(−2∑(x−μ1)2)=exp(2∑(x−μ2)2−(x−μ1)2)所以y∗=⎩⎪⎪⎪⎨⎪⎪⎪⎧1ifexp(2∑(x−μ2)2−(x−μ1)2)>12ifexp(2∑(x−μ2)2−(x−μ1)2)≤1因为⎩⎪⎪⎪⎨⎪⎪⎪⎧exp(2∑(x−μ2)2−(x−μ1)2)>1if2∑(x−μ2)2−(x−μ1)2>0exp(2∑(x−μ2)2−(x−μ1)2)≤1if2∑(x−μ2)2−(x−μ1)2≤0所以y∗=⎩⎪⎪⎪⎨⎪⎪⎪⎧1if2∑(x−μ2)2−(x−μ1)2>02if2∑(x−μ2)2−(x−μ1)2≤0即y∗=⎩⎪⎪⎪⎨⎪⎪⎪⎧1if2∑2(μ1−μ2)x+μ12−μ22>02if2∑2(μ1−μ2)x+μ12−μ22≤0所以令ω=(2∑2(μ1−μ2))T,b=2∑μ12−μ22则该预测规则可被重写成如下的的能使形式:y∗={1ifωTx+b>02ifωTx+b≤0其中ω=(2∑2(μ1−μ2))T,b=2∑μ12−μ22
Problem4-9.1
已 知 y = E d T ( x − x ‾ ) 所 以 ∣ ∣ y 1 − y 2 ∣ ∣ 2 2 = ∣ ∣ E d T ( x 1 − x 1 ‾ ) − E d T ( x 2 − x 2 ‾ ) ∣ ∣ 2 2 = ∣ ∣ E d T ( x 1 − x 2 ) ∣ ∣ 2 2 = ( E d T x 1 − E d T x 2 ) T ( E d T x 1 − E d T x 2 ) = ( x 1 − x 2 ) T E d E d T ( x 1 − x 2 ) 又 因 为 d A 2 ( x 1 , x 2 ) = ( x 1 − x 2 ) T A ( x 1 − x 2 ) 所 以 欲 使 d A 2 ( x 1 , x 2 ) = ∣ ∣ y 1 − y 2 ∣ ∣ 2 2 即 使 ( x 1 − x 2 ) T A ( x 1 − x 2 ) = ( x 1 − x 2 ) T E d E d T ( x 1 − x 2 ) 所 以 A = E d E d T 已知y = E_d^T(x-\overline{x})\\ 所以 ||y_1 - y_2||_2^2 = ||E_d^T(x_1-\overline{x_1}) - E_d^T(x_2-\overline{x_2}) ||_2^2\\ = ||E_d^T(x_1-x_2)||_2^2\\ = (E_d^Tx_1-E_d^Tx_2)^T(E_d^Tx_1-E_d^Tx_2)\\ = (x_1-x_2)^TE_dE_d^T(x_1-x_2)\\ 又因为d_A^2(x_1,x_2) = (x_1-x_2)^TA(x_1-x_2)\\ 所以欲使d^2_A(x_1,x_2) = ||y_1 - y_2||_2^2\\ 即使(x_1-x_2)^TA(x_1-x_2) = (x_1-x_2)^TE_dE_d^T(x_1-x_2)\\ 所以A = E_dE_d^T 已知y=EdT(x−x)所以∣∣y1−y2∣∣22=∣∣EdT(x1−x1)−EdT(x2−x2)∣∣22=∣∣EdT(x1−x2)∣∣22=(EdTx1−EdTx2)T(EdTx1−EdTx2)=(x1−x2)TEdEdT(x1−x2)又因为dA2(x1,x2)=(x1−x2)TA(x1−x2)所以欲使dA2(x1,x2)=∣∣y1−y2∣∣22即使(x1−x2)TA(x1−x2)=(x1−x2)TEdEdT(x1−x2)所以A=EdEdT
Problem5-10.3
离散分布和连续分布的情况类似,下面我们只讨论离散分布一种情况,连续分布只需要将就和换成积分即可。
我
们
已
知
C
E
(
p
,
q
)
=
h
(
q
)
+
K
L
(
q
∣
∣
p
)
=
h
(
p
)
+
K
L
(
p
∣
∣
q
)
由
吉
布
斯
不
等
式
:
−
∑
i
=
1
n
p
i
l
o
g
2
p
i
≦
−
∑
i
=
1
n
p
i
l
o
g
2
q
i
,
等
号
成
立
当
且
仅
当
p
i
=
q
i
∀
i
K
L
(
p
∣
∣
q
)
=
∑
i
=
1
n
p
i
l
o
g
2
(
p
i
q
i
)
=
∑
i
=
1
n
p
i
l
o
g
2
p
i
−
∑
i
=
1
n
p
i
l
o
g
2
q
i
≧
0
所
以
C
E
(
p
,
q
)
=
h
(
p
)
+
K
L
(
p
∣
∣
q
)
≧
h
(
p
)
等
号
成
立
当
且
仅
当
K
L
(
p
∣
∣
q
)
=
0
,
即
p
i
=
q
i
∀
i
,
也
即
p
=
q
我们已知CE(p,q) = h(q) + KL(q||p) = h(p) + KL(p||q)\\由吉布斯不等式:-\sum_{i=1}^{n}p_ilog_2p_i ≦ -\sum_{i=1}^np_ilog_2q_i,等号成立当且仅当p_i = q_i \forall i\\KL(p||q) = \sum_{i=1}^np_ilog_2(\frac{p_i}{q_i}) = \sum_{i=1}^{n}p_ilog_2p_i- \sum_{i=1}^np_ilog_2q_i ≧0\\所以CE(p,q)= h(p) + KL(p||q) ≧ h(p)\\等号成立当且仅当KL(p||q) = 0,即p_i = q_i \forall i,也即p = q
我们已知CE(p,q)=h(q)+KL(q∣∣p)=h(p)+KL(p∣∣q)由吉布斯不等式:−i=1∑npilog2pi≦−i=1∑npilog2qi,等号成立当且仅当pi=qi∀iKL(p∣∣q)=i=1∑npilog2(qipi)=i=1∑npilog2pi−i=1∑npilog2qi≧0所以CE(p,q)=h(p)+KL(p∣∣q)≧h(p)等号成立当且仅当KL(p∣∣q)=0,即pi=qi∀i,也即p=q