统计学习精要 (Elements of Statistical Learning ) 习题 2.4

统计学习精要 (Elements of Statistical Learning ) 习题 2.4

问题:

The edge effect problem discussed on page 23 is not peculiar to uniform sampling from bounded domains. Consider inputs drawn from a spherical multinormal distribution XN(0,Ip) . The squared distance from any sample point to the origin has a X2p distribution with mean p . Consider a prediction point x0 drawn from this distribution, and let a=x0/x0 be an associated unit vector. Let zi=aTxi be the projection of each of the training points on this direction.
Show that the zi are distributed N(0,1) with expected squared distance from the origin 1 , while the target point has expected squared distance p from the origin. Hence for p=10 , a randomly drawn test point is about 3.1 standard deviations from the origin, while all the training points are on average one standard deviation along direction a . So most prediction points see themselves as lying on the edge of the training set.

对于在一定有界范围中的均匀抽样来说,第23页所讨论的边界效应问题并不是一个特殊或奇怪的现象。假设我们有一些从多维球状正态分布 XN(0,Ip) 抽样的输入数据,那么从任何一个抽样点到原点的距离的平方都服从自由度为 p 的卡方分布,其期望为p。记其中一个从这分布中采样的点为 x0 ,并令 a=x0/x0 x0 方向上的单位向量。让 zi=aTxi 为每一个训练数据点在 a 方向上的投影。

证明 zi 服从标准正态分布 N(0,1) 且到原点的距离平方的期望为1,而原来的 x0 到原点距离平方的期望则为 p 。因此,对于p=10, 一个随机抽样的测试点到原点的距离大约是3.1个标准差,而所有训练点在 a 方向上的距离平均只有一个标准差。所以,在大部分测试点看来,他们都位于训练集的边缘。

思路:

首先说明一下第一部分的一个点。对于任意随机向量xi,其到原点的距离平方为 xi02=pj=1x2ij 。因为其协方差矩阵是 Ip ,所以向量中任意两个元素线性独立。而对于多维正态分布线性独立等同于独立,因此上述距离平方则是 p 个独立的服从标准正态分布的随机变量的平方和,正好服从自由度为p的卡方分布。

如果一个有限维随机向量服从多维正态分布的,那么其元素的任意线性组合服从一维正态分布。(参考维基百科)因此, zi 都服从正态分布。而且,

E(zi)=E(aTxi)=aTE(xi)=aT0=0.

Var(zi)=Var(aTxi)=aTVar(xi)a=aTIpa=1.

因此 zi 服从标准正态分布。 zi 到原点的距离平方为 z2i ,服从自由度为 1 的卡方分布,因此期望为1。 而 x0 到原点的距离平方为

E(x02)=i=1pE(x20i)=i=1pVar(x0i)=p.

其中 E(x20i)=Var(x0i)+E(x0i)2 .

所以, x0 到原点距离大概在 p 个标准差,但其他点只有一个标准差。从 x0 看来,相对其他点自己很可能是个“异常点”。

《The Elements of Statistical Learning》是机器学习领域的经典教材,第四章介绍了线性方法的基本概念和应用。 第四章主要包括以下内容: 1. 线性回归:介绍了线性回归的基本概念和数学模型。通过最小二乘法可以获得最优的回归系数,同时还介绍了基于正则化的线性回归模型,如岭回归和Lasso回归。 2. 多项式回归:介绍了多项式回归的概念和方法。通过引入多项式特征,可以提高线性模型的拟合能力,同时也存在过拟合的问题。 3. 基函数回归:介绍了基函数回归的概念和方法。通过引入非线性基函数,可以将线性模型拓展到非线性模型,并提高模型的灵活性。 4. 局部回归:介绍了局部加权线性回归(Locally Weighted Regression)的方法。该方法通过赋予不同数据点不同权重,来进行局部拟合。局部回归可以克服全局模型造成的误差,并提供更精确的预测结果。 5. 逻辑回归:介绍了逻辑回归的概念和应用。逻辑回归常用于二分类问题的建模,在线性回归的基础上,通过引入逻辑函数将输出映射到概率空间。 6. 多分类问题:介绍了多分类问题的处理方法。通过引入一对多(One-vs-Rest)或一对一(One-vs-One)的策略,将多分类问题转化为一系列二分类问题。 以上是《The Elements of Statistical Learning》第四章的主要内容概述。通过学习这些内容,读者可以了解线性方法在机器学习中的基本原理和应用,并在实际问题中运用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值