模式识别作业2——SYSU

参考教材:《模式识别》吴建鑫著

Problem1-6.5

(a)

$$
由习题6.1可知,rank(X) = rank(X^TX)\
rank(X+Y) \leq rank(X) + rank(Y)\
rank(X^TX) = rank(XX^T)\
\because S_w = \sum_i S_i\
\therefore rank(S_w) \leq \sum_i rank(S_i)\
\because S_i = \sum_{C_{ij}\in C_i}(C_{ij}-\overline C_i)(C_{ij}-\overline C_i)^T\

\therefore rank(S_i) = rank(\sum_{C_{ij}\in C_i}(C_{ij}-\overline C_i)(C_{ij}-\overline C_i)^T)\
= \sum_{C_{ij}\in C_i}rank((C_{ij}-\overline C_i)(C_{ij}-\overline C_i)^T)\
= \sum_{C_{ij}\in C_i}rank((C_{ij}-\overline C_i)^T(C_{ij}-\overline C_i))
= \sum_{C_{ij}\in C_i}1\

\therefore rank(S_w) \leq \sum_i rank(S_i) = \sum_i\sum_{C_{ij}\in C_i}1 =N < D\
\therefore 若N \leq D ,S_w可逆
$$

(b)

$$
\because S_B = \sum_{c=1}^C(m_c - \overline m)(m_c - \overline m)^T\
\overline m = \frac{1}{c}\sum_{c=1}^Cm_c\
\therefore S_B = \sum_{c=1}^C(m_c - \overline m)(m_c - \overline m)^T = \sum_{c=1}C(m_c*m_cT - m_c*\overline m^T - m_c^T\overline m + \overline m*\overline m^T)\
= \sum_{c=1}Cm_c*m_cT - \sum_{c=1}^C m_c*\overline m^T - \sum_{c=1}Cm_cT\overline m + \sum_{c=1}^C\overline m*\overline m^T\
= C * \overline m*\overline m^T - 2 C\overline m*\overline m^T + \sum_{c=1}Cm_c*m_cT\
= \sum_{c=1}Cm_c*m_cT - C * \overline m*\overline m^T\

rank(S_B) = rank( \sum_{c=1}Cm_c*m_cT - C * \overline m*\overline m^T) \
\leq \sum_{c=1}Crank(m_c*m_cT) - rank(C * \overline m*\overline m^T)\
= \sum_{c=1}Crank(m_cTm_c) - rank(C * \overline m^T\overline m)\
= C-1
$$

因为 S B S_B SB的秩小于等于C-1,所以广义特征值问题 S W − 1 S B ω = λ S W ω S_W^{-1}S_B\omega = \lambda S_W\omega SW1SBω=λSWω最多可以获得C-1个广义特征向量。

©

由(a)可知$ rank(S_w) \leq \sum_i rank(S_i) = \sum_i\sum_{C_{ij}\in C_i}1 =N , 若 N > D , 则 有 可 能 使 得 , 若N>D ,则有可能使得 ,N>D,使rank(S_w) = D \leq N 成 立 , 则 成立,则 S_w 可 逆 。 若 N > > D , 则 这 种 可 能 性 更 大 , 所 以 可逆。若N>>D, 则这种可能性更大,所以 N>>D,S_w$可逆的可能性也更大。

(d)

由 算 法 过 程 可 知 X = G − T Q ∴ X T S B X = ( G − T Q ) T S B ( G − T Q ) = Q T G − 1 S B G − T Q ∵ C = G − 1 S B G − T ∴ X T S B X = Q T C Q ∵ Q T C Q 为 对 角 矩 阵 ∴ X T S B X 为 对 角 矩 阵 X T S W X = ( G − T Q ) T S W ( G − T Q ) = Q T G − 1 S W G − T Q ∵ S W = G G T ∴ X T S W X = Q T G − 1 G G T G − T Q = Q T Q 由 对 角 化 过 程 可 知 Q 为 单 位 正 交 矩 阵 ∴ X T S W X = I 由算法过程可知X = G^{-T}Q\\ \therefore X^TS_BX = (G^{-T}Q)^TS_B(G^{-T}Q) = Q^TG^{-1}S_BG^{-T}Q\\ \because C = G^{-1}S_BG^{-T}\\ \therefore X^TS_BX = Q^TCQ\\ \because Q^TCQ为对角矩阵\\ \therefore X^TS_BX为对角矩阵\\ \\ X^TS_WX = (G^{-T}Q)^TS_W(G^{-T}Q) = Q^TG^{-1}S_WG^{-T}Q\\ \because S_W = GG^T\\ \therefore X^TS_WX = Q^TG^{-1}GG^TG^{-T}Q = Q^TQ\\ 由对角化过程可知Q为单位正交矩阵\\ \therefore X^TS_WX = I\\ X=GTQXTSBX=(GTQ)TSB(GTQ)=QTG1SBGTQC=G1SBGTXTSBX=QTCQQTCQXTSBXXTSWX=(GTQ)TSW(GTQ)=QTG1SWGTQSW=GGTXTSWX=QTG1GGTGTQ=QTQQXTSWX=I

广 义 特 征 值 问 题 等 价 于 求 解 S W − 1 S B ω = λ ω S W − 1 S B 的 相 似 对 角 矩 阵 的 对 角 线 元 素 即 为 广 义 特 征 向 量 的 值 ∵ X T S W − 1 S B X = ( G − T Q ) T S W − 1 S B ( G − T Q ) = Q T G − 1 S W − 1 S B G − T Q = Q T G − 1 ( G G T ) − 1 S B G − T Q = Q T G − 1 G − T G − 1 S B G − T Q = Q T I C Q = Q T C Q = X T S B X ∴ 由 矩 阵 相 似 知 识 可 知 , S W − 1 S B 和 X T S B X 相 似 ∵ X T S B X 是 对 角 矩 阵 ∴ X T S B X 的 对 角 元 即 为 所 以 特 征 值 ∵ X T S W − 1 S B X = X T S B X ∴ X 的 列 即 为 对 应 的 广 义 特 征 向 量 广义特征值问题等价于求解S_W^{-1}S_B\omega = \lambda \omega\\ S_W^{-1}S_B的相似对角矩阵的对角线元素即为广义特征向量的值\\ \because X^TS_W^{-1}S_BX = (G^{-T}Q)^TS_W^{-1}S_B (G^{-T}Q) = Q^TG^{-1}S_W^{-1}S_BG^{-T}Q\\ = Q^TG^{-1}(GG^T)^{-1}S_BG^{-T}Q = Q^TG^{-1}G^{-T}G^{-1}S_BG^{-T}Q = Q^TICQ = Q^TCQ = X^TS_BX\\ \therefore 由矩阵相似知识可知,S_W^{-1}S_B和X^TS_BX相似\\ \because X^TS_BX是对角矩阵\\ \therefore X^TS_BX的对角元即为所以特征值\\ \because X^TS_W^{-1}S_BX = X^TS_BX\\ \therefore X的列即为对应的广义特征向量 广SW1SBω=λωSW1SB线广XTSW1SBX=(GTQ)TSW1SB(GTQ)=QTG1SW1SBGTQ=QTG1(GGT)1SBGTQ=QTG1GTG1SBGTQ=QTICQ=QTCQ=XTSBXSW1SBXTSBXXTSBXXTSBXXTSW1SBX=XTSBXX广

这样得到的X不是单位正交的

Problem2-7.4

(a)

若 不 含 偏 置 项 , 则 f ( x ) = ω T x 那 么 优 化 问 题 为 a r g m i n y ∣ ∣ x − y ∣ ∣ 2 s . t . f ( y ) = 0 拉 格 朗 日 函 数 为 L ( y , λ ) = ∣ ∣ x − y ∣ ∣ 2 − λ ( ω T y + b ) 令 ∂ L ∂ y = 0 可 得 y = x + λ 2 ω 带 入 f ( y ) = 0 可 得 ω T x + λ 2 ω T ω = 0 λ = − 2 ω T x ω T ω x ⊥ = x + λ 2 ω = x − ω T x ω T ω ω z = x − x ⊥ = ω T x ω T ω ω ∣ ∣ z ∣ ∣ = ∣ ∣ ω T x ω T ω ω ∣ ∣ = ∣ ω T x ∣ ∣ ∣ ω ∣ ∣ 则 优 化 问 题 为 m a x ω m i n 1 ≤ i ≤ n ∣ ω T x ∣ ∣ ∣ ω ∣ ∣ s . t . y i f ( x i ) > 01 ≤ i ≤ n 其 中 y i = 1 表 示 正 类 样 本 , y i = − 1 表 示 负 类 样 本 因 为 y i f ( x i ) = ∣ f ( x i ) ∣ = ∣ ω T x i ∣ 所 以 m i n 1 ≤ i ≤ n ∣ ω T x ∣ ∣ ∣ ω ∣ ∣ = m i n 1 ≤ i ≤ n y i ω T x ∣ ∣ ω ∣ ∣ = 1 ∣ ∣ ω ∣ ∣ m i n 1 ≤ i ≤ n y i ω T x 取 c = m i n 1 ≤ i ≤ n y i ω ∗ T x , 则 m i n 1 ≤ i ≤ n y i ( ω ∗ c ) T x = 1 > 0 所 以 优 化 问 题 等 价 于 m a x ω m i n 1 ≤ i ≤ n ∣ ω T x i ∣ ∣ ∣ ω ∣ ∣ ⇔ m a x ω 1 ∣ ∣ ω ∣ ∣ ⇔ m a x ω 1 2 ω T ω s . t . y i ω T x i ≥ 1 1 ≤ i ≤ n 若不含偏置项,则f(x) = \omega^Tx\\ 那么优化问题为 argmin_y ||x-y||^2 \quad s.t. f(y) = 0\\ 拉格朗日函数为L(y,\lambda) = ||x-y||^2 -\lambda(\omega^Ty+b)\\ 令\frac{\partial L}{\partial y} = 0可得y = x + \frac{\lambda}{2}\omega\\ 带入f(y) = 0可得\omega^Tx + \frac{\lambda}{2}\omega^T\omega = 0\\ \lambda = -\frac{2\omega^Tx}{\omega^T\omega}\\ x_\perp = x + \frac{\lambda}{2}\omega = x - \frac{\omega^Tx}{\omega^T\omega}\omega\\ z = x - x_\perp = \frac{\omega^Tx}{\omega^T\omega}\omega\\ ||z|| = || \frac{\omega^Tx}{\omega^T\omega}\omega|| = \frac{|\omega^Tx|}{||\omega||}\\ 则优化问题为max_\omega\quad min_{1≤i≤n} \quad \frac{|\omega^Tx|}{||\omega||}\\ s.t. \quad y_if(x_i) > 0 1≤i≤n\\ 其中y_i=1表示正类样本,y_i = -1表示负类样本\\ 因为y_if(x_i) = |f(x_i)| = |\omega^Tx_i|\\ 所以min_{1≤i≤n} \frac{|\omega^Tx|}{||\omega||} = min_{1≤i≤n} \frac{y_i\omega^Tx}{||\omega||} = \frac{1}{||\omega||}min_{1≤i≤n}y_i\omega^Tx\\ 取c = min_{1≤i≤n} \quad y_i\omega^{*T}x,则min_{1≤i≤n}y_i(\frac{\omega*}{c})^Tx = 1 >0\\ 所以优化问题等价于max_{\omega} \frac{min_{1≤i≤n} |\omega^Tx_i|}{||\omega||} \Leftrightarrow max_\omega \frac{1}{||\omega||}\Leftrightarrow max_\omega \frac12\omega^T\omega\\ s.t. y_i\omega^Tx_i ≥1 \quad 1≤i≤n f(x)=ωTxargminyxy2s.t.f(y)=0L(y,λ)=xy2λ(ωTy+b)yL=0y=x+2λωf(y)=0ωTx+2λωTω=0λ=ωTω2ωTxx=x+2λω=xωTωωTxωz=xx=ωTωωTxωz=ωTωωTxω=ωωTxmaxωmin1inωωTxs.t.yif(xi)>01inyi=1yi=1yif(xi)=f(xi)=ωTximin1inωωTx=min1inωyiωTx=ω1min1inyiωTxc=min1inyiωTxmin1inyi(cω)Tx=1>0maxωωmin1inωTximaxωω1maxω21ωTωs.t.yiωTxi11in

(b)

由 ( a ) 已 知 优 化 问 题 为 m a x ω 1 2 ω T ω s . t . y i ω T x i ≥ 1 1 ≤ i ≤ n 拉 格 朗 日 函 数 为 L ( ω , α ) = 1 2 ω T ω − ∑ i = 1 n α i ( y i ( ω T x i ) − 1 ) s . t . α i ≥ 0 1 ≤ i ≤ n ∂ L ∂ ω = 0 ⇒ ω = ∑ i = 1 n α i y i x i 所 以 K K T 条 件 为 : ω = ∑ i = 1 n α i y i x i α i ≥ 0 y i ω T x i ≥ 1 α i ( y i ω T x i − 1 ) = 0 所 以 有 1 2 ω T ω = 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j ∑ i = 1 n α i y i ω T x i = ω T ω = ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j 所 以 拉 格 朗 日 函 数 为 − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j + ∑ i = 1 n α i 对 偶 形 式 为 m a x α − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j + ∑ i = 1 n α i s . t . α i ≥ 0 1 ≤ i ≤ n ⇔ m i n α 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j − ∑ i = 1 n α i s . t . α i ≥ 0 1 ≤ i ≤ n 因 为 α 为 有 限 维 , 所 以 一 定 存 在 一 个 最 大 的 α i , 设 C = m a x 1 ≤ i ≤ n ( α i ) 则 对 偶 问 题 为 m i n α 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j x i T x j − ∑ i = 1 n α i s . t . 0 ≤ α i ≤ C 1 ≤ i ≤ n 由 K K T 条 件 , ω = ∑ i = 1 n α i y i x i 所 以 若 α 的 最 优 解 为 α ∗ , ω ∗ = ∑ i = 1 n α i ∗ y i x i 由(a)已知优化问题为max_\omega \frac12\omega^T\omega\\ s.t. y_i\omega^Tx_i ≥1 \quad 1≤i≤n\\ 拉格朗日函数为L(\omega,\alpha) = \frac12\omega^T\omega - \sum_{i=1}^{n}\alpha_i(y_i(\omega^Tx_i ) - 1)\\ s.t. \alpha_i \geq 0 \quad 1 \leq i \leq n\\ \frac{\partial L}{\partial \omega} = 0 \Rightarrow \omega = \sum_{i=1}^{n}\alpha_iy_ix_i\\ 所以KKT条件为:\\ \omega = \sum_{i=1}^{n}\alpha_iy_ix_i\\ \alpha_i \geq 0\\ y_i\omega^Tx_i \geq1\\ \alpha_i(y_i\omega^Tx_i-1) = 0\\ 所以有\frac12\omega^T\omega = \frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ \sum_{i=1}^n\alpha_iy_i\omega^Tx_i = \omega^T\omega = \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ 所以拉格朗日函数为-\frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j + \sum_{i=1}^n\alpha_i\\ 对偶形式为 max_\alpha -\frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j + \sum_{i=1}^n\alpha_i\\ s.t. \alpha_i \geq 0 \quad 1 \leq i \leq n \\ \Leftrightarrow\\ min_\alpha \frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j - \sum_{i=1}^n\alpha_i\\ s.t. \alpha_i \geq 0 \quad 1 \leq i \leq n\\ 因为\alpha为有限维,所以一定存在一个最大的\alpha_i,设C = max_{1\leq i\leq n}(\alpha_i)\\ 则对偶问题为min_\alpha \frac12 \sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j - \sum_{i=1}^n\alpha_i\\ s.t.0 \leq \alpha_i \leq C \quad 1 \leq i \leq n\\ 由KKT条件,\omega = \sum_{i=1}^{n}\alpha_iy_ix_i\\ 所以若\alpha的最优解为\alpha^*,\omega^* = \sum_{i=1}^{n}\alpha^*_iy_ix_i amaxω21ωTωs.t.yiωTxi11inL(ω,α)=21ωTωi=1nαi(yi(ωTxi)1)s.t.αi01inωL=0ω=i=1nαiyixiKKTω=i=1nαiyixiαi0yiωTxi1αi(yiωTxi1)=021ωTω=21i=1nj=1nαiαjyiyjxiTxji=1nαiyiωTxi=ωTω=i=1nj=1nαiαjyiyjxiTxj21i=1nj=1nαiαjyiyjxiTxj+i=1nαimaxα21i=1nj=1nαiαjyiyjxiTxj+i=1nαis.t.αi01inminα21i=1nj=1nαiαjyiyjxiTxji=1nαis.t.αi01inααiC=max1in(αi)minα21i=1nj=1nαiαjyiyjxiTxji=1nαis.t.0αiC1inKKTω=i=1nαiyixiαα,ω=i=1nαiyixi

©

通 过 对 x 增 加 一 个 额 外 的 维 度 , 所 增 加 的 维 度 总 有 一 个 常 数 值 1 , 将 任 意 x ∈ R d 转 化 为 R ( d + 1 ) 空 间 上 的 x ^ 之 后 对 数 据 集 x ^ 进 行 训 练 学 习 得 到 一 个 不 含 偏 置 项 的 ω ^ , 那 么 这 个 ω ^ 的 最 后 一 维 的 值 即 为 在 R d 空 间 上 含 偏 置 项 的 S V M 的 b b = ( ∑ i = 1 n α i ∗ y i x i ) d + 1 通过对x增加一个额外的维度,所增加的维度总有一个常数值1,将任意x∈R^d转化为R^{(d+1)}空间上的\hat{x}\\ 之后对数据集\hat{x}进行训练学习得到一个不含偏置项的\hat\omega,那么这个\hat\omega 的最后一维的值即为在R^d空间上含偏置项的SVM的b\\ b =(\sum_{i=1}^{n}\alpha^*_iy_ix_i)_{d+1} x1xRdR(d+1)x^x^ω^ω^RdSVMbb=(i=1nαiyixi)d+1

Problem3-8.6

由 题 意 可 知 P ( x ∣ y = 1 ) = 1 2 π ∑ e x p ( − ( x − μ 1 ) 2 2 ∑ ) P ( x ∣ y = 2 ) = 1 2 π ∑ e x p ( − ( x − μ 2 ) 2 2 ∑ ) P ( y = 1 ∣ x ; θ ) = P ( x ∣ y = 1 ) P ( y = 1 ) P ( x ; θ ) P ( y = 2 ∣ x ; θ ) = P ( x ∣ y = 2 ) P ( y = 2 ) P ( x ; θ ) 因 为 y ∗ = a r g m a x ( P ( y = i ∣ x ; θ ) ) 所 以 y ∗ = { 1 i f P ( y = 1 ∣ x ; θ ) > P ( y = 2 ∣ x ; θ ) 2 i f P ( y = 1 ∣ x ; θ ) ≤ P ( y = 2 ∣ x ; θ ) 又 因 为 { 当 P ( y = 1 ∣ x ; θ ) > P ( y = 2 ∣ x ; θ ) 时 P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) > 1 当 P ( y = 1 ∣ x ; θ ) ≤ P ( y = 2 ∣ x ; θ ) 时 P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) ≤ 1 所 以 y ∗ = { 1 i f P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) > 1 2 i f P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) ≤ 1 因 为 P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) = P ( x ∣ y = 1 ) P ( y = 1 ) P ( x ; θ ) P ( x ∣ y = 2 ) P ( y = 2 ) P ( x ; θ ) = P ( x ∣ y = 1 ) P ( y = 1 ) P ( x ∣ y = 2 ) P ( y = 2 ) 且 P ( y = 1 ) = P ( y = 2 ) = 0.5 所 以 P ( y = 1 ∣ x ; θ ) P ( y = 2 ∣ x ; θ ) = P ( x ∣ y = 1 ) P ( x ∣ y = 2 ) = 1 2 π ∑ e x p ( − ( x − μ 1 ) 2 2 ∑ ) 1 2 π ∑ e x p ( − ( x − μ 2 ) 2 2 ∑ ) = e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) 所 以 y ∗ = { 1 i f e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) > 1 2 i f e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) ≤ 1 因 为 { e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) > 1 i f ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ > 0 e x p ( ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ) ≤ 1 i f ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ≤ 0 所 以 y ∗ = { 1 i f ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ > 0 2 i f ( x − μ 2 ) 2 − ( x − μ 1 ) 2 2 ∑ ≤ 0 即 y ∗ = { 1 i f 2 ( μ 1 − μ 2 ) x + μ 1 2 − μ 2 2 2 ∑ > 0 2 i f 2 ( μ 1 − μ 2 ) x + μ 1 2 − μ 2 2 2 ∑ ≤ 0 所 以 令 ω = ( 2 ( μ 1 − μ 2 ) 2 ∑ ) T , b = μ 1 2 − μ 2 2 2 ∑ 则 该 预 测 规 则 可 被 重 写 成 如 下 的 的 能 使 形 式 : y ∗ = { 1 i f ω T x + b > 0 2 i f ω T x + b ≤ 0 其 中 ω = ( 2 ( μ 1 − μ 2 ) 2 ∑ ) T , b = μ 1 2 − μ 2 2 2 ∑ 由题意可知\\ P(x|y=1) = \frac{1}{\sqrt{2\pi}\sum}exp(-\frac{(x-\mu_1)^2}{2\sum})\\ P(x|y=2) = \frac{1}{\sqrt{2\pi}\sum}exp(-\frac{(x-\mu_2)^2}{2\sum})\\ P(y=1|x;\theta) = \frac{P(x|y=1)P(y=1)}{P(x;\theta)}\\ P(y=2|x;\theta) = \frac{P(x|y=2)P(y=2)}{P(x;\theta)}\\ 因为y^* = argmax(P(y=i|x;\theta))\\ 所以y^* = \left\{ \begin{aligned} & 1 \quad if P(y=1|x;\theta) > P(y=2|x;\theta)\\ & 2 \quad if P(y=1|x;\theta) ≤ P(y=2|x;\theta)\\ \end{aligned} \right. \\ 又因为 \left\{ \begin{aligned} & 当 P(y=1|x;\theta) > P(y=2|x;\theta)时\quad \frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} > 1\\ & 当 P(y=1|x;\theta) ≤ P(y=2|x;\theta)时\quad \frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} ≤ 1\\ \end{aligned} \right. \\ 所以y^* = \left\{ \begin{aligned} & 1 \quad if \frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} > 1\\ & 2 \quad if \frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} ≤ 1\\ \end{aligned} \right. \\ 因为\frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} = \frac{ \frac{P(x|y=1)P(y=1)}{P(x;\theta)}}{\frac{P(x|y=2)P(y=2)}{P(x;\theta)}} = \frac{P(x|y=1)P(y=1)}{P(x|y=2)P(y=2)}\\ 且 P(y=1) = P(y = 2) = 0.5\\ 所以\frac{P(y=1|x;\theta)}{P(y=2|x;\theta)} = \frac{P(x|y=1)}{P(x|y=2)} \\= \frac{\frac{1}{\sqrt{2\pi}\sum}exp(-\frac{(x-\mu_1)^2}{2\sum})}{ \frac{1}{\sqrt{2\pi}\sum}exp(-\frac{(x-\mu_2)^2}{2\sum})} = exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum})\\ 所以y^* = \left\{ \begin{aligned} & 1 \quad if\quad exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum}) > 1\\ & 2 \quad if\quad exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum}) ≤ 1\\ \end{aligned} \right. \\ 因为\left\{ \begin{aligned} & exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum}) > 1 \quad if \frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum} > 0\\ &exp(\frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum}) ≤ 1 \quad if \frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum} ≤ 0\\ \end{aligned} \right. \\ 所以y^* = \left\{ \begin{aligned} & 1 \quad if\quad \frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum} > 0\\ & 2 \quad if\quad \frac{(x-\mu_2)^2-(x-\mu_1)^2}{2\sum} ≤ 0\\ \end{aligned} \right. \\ 即y^* = \left\{ \begin{aligned} & 1 \quad if\quad \frac{2(\mu_1-\mu_2)x + \mu_1^2-\mu_2^2}{2\sum} > 0\\ & 2 \quad if\quad \frac{2(\mu_1-\mu_2)x + \mu_1^2-\mu_2^2}{2\sum} ≤ 0\\ \end{aligned} \right. \\ 所以令\omega = (\frac{2(\mu_1-\mu_2)}{2\sum})^T, \quad b = \frac{\mu_1^2-\mu_2^2}{2\sum}\\ 则该预测规则可被重写成如下的的能使形式:\\ y^* = \left\{ \begin{aligned} &1 \quad if \omega^Tx + b > 0\\ &2 \quad if \omega^Tx + b ≤0 \end{aligned} \right. \\ 其中\omega = (\frac{2(\mu_1-\mu_2)}{2\sum})^T, \quad b = \frac{\mu_1^2-\mu_2^2}{2\sum} P(xy=1)=2π 1exp(2(xμ1)2)P(xy=2)=2π 1exp(2(xμ2)2)P(y=1x;θ)=P(x;θ)P(xy=1)P(y=1)P(y=2x;θ)=P(x;θ)P(xy=2)P(y=2)y=argmax(P(y=ix;θ))y={1ifP(y=1x;θ)>P(y=2x;θ)2ifP(y=1x;θ)P(y=2x;θ)P(y=1x;θ)>P(y=2x;θ)P(y=2x;θ)P(y=1x;θ)>1P(y=1x;θ)P(y=2x;θ)P(y=2x;θ)P(y=1x;θ)1y=1ifP(y=2x;θ)P(y=1x;θ)>12ifP(y=2x;θ)P(y=1x;θ)1P(y=2x;θ)P(y=1x;θ)=P(x;θ)P(xy=2)P(y=2)P(x;θ)P(xy=1)P(y=1)=P(xy=2)P(y=2)P(xy=1)P(y=1)P(y=1)=P(y=2)=0.5P(y=2x;θ)P(y=1x;θ)=P(xy=2)P(xy=1)=2π 1exp(2(xμ2)2)2π 1exp(2(xμ1)2)=exp(2(xμ2)2(xμ1)2)y=1ifexp(2(xμ2)2(xμ1)2)>12ifexp(2(xμ2)2(xμ1)2)1exp(2(xμ2)2(xμ1)2)>1if2(xμ2)2(xμ1)2>0exp(2(xμ2)2(xμ1)2)1if2(xμ2)2(xμ1)20y=1if2(xμ2)2(xμ1)2>02if2(xμ2)2(xμ1)20y=1if22(μ1μ2)x+μ12μ22>02if22(μ1μ2)x+μ12μ220ω=(22(μ1μ2))T,b=2μ12μ22使y={1ifωTx+b>02ifωTx+b0ω=(22(μ1μ2))T,b=2μ12μ22

Problem4-9.1

已 知 y = E d T ( x − x ‾ ) 所 以 ∣ ∣ y 1 − y 2 ∣ ∣ 2 2 = ∣ ∣ E d T ( x 1 − x 1 ‾ ) − E d T ( x 2 − x 2 ‾ ) ∣ ∣ 2 2 = ∣ ∣ E d T ( x 1 − x 2 ) ∣ ∣ 2 2 = ( E d T x 1 − E d T x 2 ) T ( E d T x 1 − E d T x 2 ) = ( x 1 − x 2 ) T E d E d T ( x 1 − x 2 ) 又 因 为 d A 2 ( x 1 , x 2 ) = ( x 1 − x 2 ) T A ( x 1 − x 2 ) 所 以 欲 使 d A 2 ( x 1 , x 2 ) = ∣ ∣ y 1 − y 2 ∣ ∣ 2 2 即 使 ( x 1 − x 2 ) T A ( x 1 − x 2 ) = ( x 1 − x 2 ) T E d E d T ( x 1 − x 2 ) 所 以 A = E d E d T 已知y = E_d^T(x-\overline{x})\\ 所以 ||y_1 - y_2||_2^2 = ||E_d^T(x_1-\overline{x_1}) - E_d^T(x_2-\overline{x_2}) ||_2^2\\ = ||E_d^T(x_1-x_2)||_2^2\\ = (E_d^Tx_1-E_d^Tx_2)^T(E_d^Tx_1-E_d^Tx_2)\\ = (x_1-x_2)^TE_dE_d^T(x_1-x_2)\\ 又因为d_A^2(x_1,x_2) = (x_1-x_2)^TA(x_1-x_2)\\ 所以欲使d^2_A(x_1,x_2) = ||y_1 - y_2||_2^2\\ 即使(x_1-x_2)^TA(x_1-x_2) = (x_1-x_2)^TE_dE_d^T(x_1-x_2)\\ 所以A = E_dE_d^T y=EdT(xx)y1y222=EdT(x1x1)EdT(x2x2)22=EdT(x1x2)22=(EdTx1EdTx2)T(EdTx1EdTx2)=(x1x2)TEdEdT(x1x2)dA2(x1,x2)=(x1x2)TA(x1x2)使dA2(x1,x2)=y1y222使(x1x2)TA(x1x2)=(x1x2)TEdEdT(x1x2)A=EdEdT

Problem5-10.3

离散分布和连续分布的情况类似,下面我们只讨论离散分布一种情况,连续分布只需要将就和换成积分即可。
我 们 已 知 C E ( p , q ) = h ( q ) + K L ( q ∣ ∣ p ) = h ( p ) + K L ( p ∣ ∣ q ) 由 吉 布 斯 不 等 式 : − ∑ i = 1 n p i l o g 2 p i ≦ − ∑ i = 1 n p i l o g 2 q i , 等 号 成 立 当 且 仅 当 p i = q i ∀ i K L ( p ∣ ∣ q ) = ∑ i = 1 n p i l o g 2 ( p i q i ) = ∑ i = 1 n p i l o g 2 p i − ∑ i = 1 n p i l o g 2 q i ≧ 0 所 以 C E ( p , q ) = h ( p ) + K L ( p ∣ ∣ q ) ≧ h ( p ) 等 号 成 立 当 且 仅 当 K L ( p ∣ ∣ q ) = 0 , 即 p i = q i ∀ i , 也 即 p = q 我们已知CE(p,q) = h(q) + KL(q||p) = h(p) + KL(p||q)\\由吉布斯不等式:-\sum_{i=1}^{n}p_ilog_2p_i ≦ -\sum_{i=1}^np_ilog_2q_i,等号成立当且仅当p_i = q_i \forall i\\KL(p||q) = \sum_{i=1}^np_ilog_2(\frac{p_i}{q_i}) = \sum_{i=1}^{n}p_ilog_2p_i- \sum_{i=1}^np_ilog_2q_i ≧0\\所以CE(p,q)= h(p) + KL(p||q) ≧ h(p)\\等号成立当且仅当KL(p||q) = 0,即p_i = q_i \forall i,也即p = q CE(p,q)=h(q)+KL(qp)=h(p)+KL(pq)i=1npilog2pii=1npilog2qipi=qiiKL(pq)=i=1npilog2(qipi)=i=1npilog2pii=1npilog2qi0CE(p,q)=h(p)+KL(pq)h(p)KL(pq)=0,pi=qiip=q

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值