机器学习：监督学习习题

最新推荐文章于 2023-05-25 23:39:36 发布

兔子爱读书

最新推荐文章于 2023-05-25 23:39:36 发布

阅读量2.6k

点赞数

分类专栏：机器学习专栏：机器学习知识图谱

未经许可禁止转载！

本文链接：https://blog.csdn.net/ztf312/article/details/50836686

版权

机器学习同时被 2 个专栏收录

89 篇文章 22 订阅

订阅专栏

专栏：机器学习知识图谱

25 篇文章 54 订阅

订阅专栏

1. SVM和logistic回归分别在什么情况下使用？

(1) 两种方法都是常见的分类算法，从目标函数来看，区别在于逻辑回归采用的是logistical loss，svm采用的是hinge loss。

这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。

(2) 两者的根本目的都是一样的。

SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器。

逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。

此外，根据需要，两个方法都可以增加不同的正则化项，如l1,l2等等。所以在很多实验中，两种算法的结果是很接近的。

(3) 区别1

逻辑回归相对来说模型更简单，好理解；大规模线性分类实现时比较方便。

SVM的理解和优化相对来说复杂一些；但是理论基础更牢固，有一套结构化风险最小化的理论基础；SVM转化为对偶问题后，分类只需要计算与少数几个支持向量的距离，这个在进行复杂核函数计算时优势很明显，能够大大简化模型和计算。

(4) 区别2

svm 更多的属于非参数模型，而logistic regression 是参数模型，本质不同。其区别就可以参考参数模型和非参模型的区别就好了。logic 能做的 svm能做，但可能在准确率上有问题，svm能做的logic有的做不了

2. 训练数据较少时更容易发生过拟合。（正确）

3. 请解释核回归.

统计学中的一种非参数的随机变量条件期望的预测技术。其目的是寻找一对随机变量之间的非线性关系.

核函数 K(v_1,v_2) = <v_1,v_2>^2 ，即“内积平方”。作用就是隐含着一个从低维空间到高维空间的映射，而这个映射可以把低维空间中线性不可分的两类点变成线性可分的。

Kernel Hilbert Space (RKHS)核希尔伯特空间理论: 首先在欧式空间上考虑所有连续函数，这些连续函数可以做加法和数乘，所以给他们中的一部分施加一个内积结构，这个内积实现中的一部分就可以对应到希尔伯特空间中。在核映射前提下，两组数据被映射成为了核空间的两个点。

最强大的核函数是径向基函数（Radial basis function，RBF）中的高斯核（Gaussian）。这类核能把整个连续函数空间填满，又叫做通用内核（universal kernel）。也就是说，原空间的不同分布在这个映射下都能变成不同的点。

4. 什么是径向基函数?

径向基函数是一个取值仅仅依赖于离原点距离的实值函数，也就是Φ（x）=Φ(‖x‖)。或者是到任意一点c的距离，c点成为中心点，也就是Φ（x，c）=Φ(‖x-c‖)。

任意一个满足Φ（x）=Φ(‖x‖)特性的函数Φ都叫做径向量函数，标准的一般使用欧氏距离，尽管其他距离函数也是可以的。一些径向函数代表性的用到近似给定的函数，这种近似可以被解释成一个简单的神经网络，径向基函数在支持向量机中也被用做核函数。

RBF (Radial Basis Function)可以看作是一个高维空间中的曲面拟合(逼近)问题，学习是为了在多维空间中寻找一个能够最佳匹配训练数据的曲面，然后来一批新的数据，用刚才训练的那个曲面来处理(比如分类、回归)。

原理是非线性变换的基本理论：

1.一个模式分类问题如果映射到一个高维空间将会比映射到一个低维空间更可能实现线性可分;

2. 隐空间的维数越高，逼近就越精确。

目前常用的三大径向基函数：

5. 解释高斯函数

特点：将二次函数和指数函数结合，指数是一个二次函数。a表示得到曲线的高度，b是指曲线在x轴的中心，c指width(与半峰全宽有关),图形如下

高斯函数图形

6. EM算法

“小时候，老妈给一大袋糖果给你，叫你和你姐姐等分，然后你懒得去点糖果的个数，所以你也就不知道每个人到底该分多少个。咱们一般怎么做呢？先把一袋糖果目测的分为两袋，然后把两袋糖果拿在左右手，看哪个重，如果右手重，那很明显右手这代糖果多了，然后你再在右手这袋糖果中抓一把放到左手这袋，然后再感受下哪个重，然后再从重的那袋抓一小把放进轻的那一袋，继续下去，直到你感觉两袋糖果差不多相等了为止。呵呵，然后为了体现公平，你还让你姐姐先选了。”

EM算法就是这样，假设我们想估计知道A和B两个参数，在开始状态下二者都是未知的，但如果知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

实际上，EM算法是加入隐性因子的最大似然估计。《统计学习方法》中给出了一个典型的三硬币问题。

应用：混合高斯模型（Mixtures of Gaussians）、K-means聚类算法