5328课程大纲
PAC:概率近似正确
为何学习这门课:
How machine learning works?
How can we improve them?
机器学习算法中的元素:Elements of Machine Learning Algorithms
机器学习定义1:What is Machine Learning?(5318)
非正式:从数据学习并做预测
正式:建立一个统计模型,它本身暗含着某种数据分布
机器学习定义2:What is Machine Learning?(5328)
-
Input Training Data
因为噪点,红绿线被影响
黑色的线Truncated CauchyNMF没有受噪点的影响。
数据的label Y有噪声或者被污染,解决的方法CCN,RCN -
Predifined Hypothesis Class
如何找到一个合适的假设类?
线性SVM && 核SVM
Kernel SVM可以分线性不可分的数据
通过升维,进行分类. -
Object function
目标是将一个数值最大化或最小化。
Ps:arg min 就是使后面这个式子达到最小值时的h(x)的取值
Object Funciton:0-1损失、最小二乘、交叉熵损失…
Best regressor:让损失最小,就是最优的,前提,损失函数是凸优化函数
Obtain:梯度下降,矩阵分解,最小二乘等
给定一个分类任务,我们最先需要定义一个假设或者分类器是最优的。如何挑选最好的分类器呢?选择在给定数据中可以将分类损失最小的那个。
最好的分类器就是在数学上使得argmin的0-1损失最小时的h。
大数定律:
在同一个实验中重复大量的次数。h在大数据集D上的损失可以看成是大数定律的应用。当D无限大时,0-1损失的均值就是0-1损失的期望值。
Ps:大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。
最好的分类器就是在最小化期望时h的值。但是这里有几个问题:
- 数据分布未知,无法计算期望E。
- 目标函数不是凸函数或者不平滑,很难优化。
- 不知道什么模型最适合数据
如何解决?
我们可以在给定数据集上,通过大数定律,使用0-1在数据集上的平均损失去评估期望E。这个公式是无偏见的,因为当D趋近于无穷时,这个损失函数的平均值就是期望。
unbiased的原因是大数定理。
- Optimization Method
Ps:H表示所有可能的假设的合集。
从H中选择一个hypothesis来最小化目标函数。用收敛的l代替0-1损失。l(Xi, Yi, h)是一个关于h和数据的损失函数。
泰勒展开式,解释了梯度下降问题。注意上面公式,为何h(k+1)<h(k)。
- Output Hypothesis hs
hs 输出假设
关于泛化误差:
非正式:泛化误差就是训练与验证之间的误差。
一般来说,training data越多,泛化误差越小。