吃瓜教程1--概念准备

交叉验证法（cross validation）：先将数据集D划分为k个大小相似的互斥子集，即D=D1∪D2∪...∪Dk，Di∩Dj=（i≠j）。每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。特例：留一法（Leave-One-Out，简称LOO）。显然，留一法不受随机样本划分方式的影响，因为m个样本只有唯一的方式划分为m个子集。

自助法（bootstrapping）：给定包含m个样本的数据集D，我们对它进行采样产生数据集D′：每次随机从D中挑选一个样本，将其拷贝放入D′，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D′，这就是自助采样的结果。

机器学习常涉及两类参数：

一类是算法的参数，亦称”超参数”，数目常在10以内；

另一类是模型的参数，数目可能很多，例如大型“深度学习”模型甚至有上百亿个参数；

相同：均是产生多个模型之后基于某种评估方法来进行选择；

不同：前者通常是由人工设定多个参数候选值后产生模型，后者则是通过学习来产生多个候选模型（例如神经网络在不同轮数停止训练）。

二、南瓜书准备篇

机器学习的相关技术

1.监督学习

（1）Regression

Regression：machine找到function，它的输出是一个scalar，比如PM2.5的预测，也就是说你要找一个function，这个function的输出是未来某一个时间PM2.5的一个数值。

（2）Classification

Classification问题分成两种，一种叫做二分类输出的是是或否（Yes or No）；另一类叫做多分类（Multi-class），在Multi-class中是让机器做一个选择题，等于是给他数个选项，每个选项都是一个类别，让他从数个类别里选择正确的类别。

2.半监督学习

简单来说就是既有有标记数据，又有无标记数据，一般无标记数据的数量远大于有标记数据。

3.迁移学习

简单来说就是一种学习对另一种学习的影响，或习得的经验对完成其他活动的影响。

4.无监督学习

无监督学习是训练机器使用既未分类也未标记的数据的方法。这意味着无法提供训练数据，机器只能自行学习。机器必须能够对数据进行分类，而无需事先提供任何有关数据的信息。

5.强化学习

在reinforcement learning里面，我们没有告诉机器正确的答案是什么，机器所拥有的只有一个分数，就是他做的好还是不好。

雾里看花的学习日常

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
吃瓜教程1--概念准备

学习过程中的基础思想：归纳：从特殊到一般的”泛化“；演绎：由基础原理推演到各种情况；归纳学习：广义指从样例中学习，狭义指从训练数据中学得概念：概念学习、概念形成；学习过程可以看作在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设，有许多搜索策略对假设空间进行搜索，如自顶向下、从一般到特殊等，最终获得与训练集一致的假设；概念：版本空间：与训练集一致的假设集合。
复制链接

扫一扫