机器学习基础--各种学习方式(1)

机器学习中的各种学习方式

  以识别猫狗图像为例,区分以下几种学习方式:
1.监督学习:有标签的猫狗数据。
2.无监督学习:无标签的猫狗数据。
3.半监督学习:部分有标签的猫狗数据。
4.Transfer Learning(迁移学习):有标签的猫狗数据、有标签的大象老虎的数据。
5.Self-taught Learning:有标签的猫狗数据、无标签的大象老虎美女的数据。


监督学习(supervised learning)

  输入数据都有一个类别标记或结果标记,被称作训练数据,比如垃圾邮件与非垃圾邮件、某时间点的股票价格。模型由训练过程得到,利用模型,可以对新样本做出推测,并可以计算得到这些预测的精确度等指标。训练过程往往需要在训练集上达到一定程度的精确度,不欠拟合或过拟合。
  监督学习一般解决的问题是分类和回归,代表算法有逻辑回归(Logistic Regression)和神经网络后向传播算法(Back Propagation Neural Network)。
  有监督学习:有标签、直接反馈、预测未来结果

  监督学习算法利用训练数据集学习,并持续学习直到达到他们所期望的信息(最小化错误概率)的程度。
  监督算法可以分为回归、分类和异常检测或降维。


半监督学习(Semi-Supervised Learning)

  输入数据是标注数据和非标注数据的混合,它也是为了解决预测问题的,但是模型必须同时兼顾学习数据中已经存在的结构和作出预测,即上述监督学习和无监督学习的融合。该方法要解决的问题仍然是分类的回归,代表算法一般是在监督学习的算法上进行扩展,使之可以对未标注数据建模。

  一般性流程:首先,可以先用有标签的数据训练得到分类器C0;然后用C0去预测无标签的数据并打上标签;最后使用全部的数据训练得到分类器C1。

  常用的算法:基于图模型的半监督学习是使用最多的
半监督学习的关键步骤是构图,确定距离,以及确定标签传播的方法另外常见的半监督学习还包括self-training,transductive learning 等等
  self-training(自训练算法)、generative models(生成模型)、SVMs(半监督支持向量机)、graph-based methods(图论方法)、multiview learing(多视角算法)等。


无监督学习(Unsupervised Learning)

  输入数据没有任何标记,通过推理数据中已有的结构来构建模型。
  无监督学习算法尝试从可用数据中获取价值。这意味着,在可用数据内,算法产生关系,以便检测模式或根据它们之间的相似程度将数据集划分为子组。”

常用的算法

  自编码(Autoencoding)、主成分分析(Principal components analysis)、随机森林(Random forests)、K均值聚类(K-means clustering)。
  无监督学习中最有前景的最新发展之一是Ian Goodfellow(当时在Yoshua Bengio的实验室工作时提出)的一个想法,称为“ 生成对抗网络 (generative adversarial networks)”。

  a)关联/规则学习(Association Rule):就是去发觉在同一个数据集合中不同条目同时发生的概率。广泛地用于市场篮子分析。例如:如果一位顾客买了面包,那么他有 80% 的可能性购买鸡蛋。例如:Apriori 算法
  b)聚类:把更加相似的对象归为一类,而不是其他类别对象。例如:K-均值聚类。
  c)降维:顾名思义,降维就是减少数据集变量,同时要保证重要信息不丢失。降维可以通过使用特征提取和特征选择方法来完成。特征选择方法会选择原始变量的一个子集。特征提取完成了从高维空间到低维空间的数据变换。例如:主成分分析(PCA)


增强学习(Reinforcement Learning)

  在这种学习方式中,模型先被构建,然后输入数据刺激模型,输入数据往往来自于环境中,模型得到的结果称之为反馈,使用反馈对模型进行调整。
  详情见“增强学习”的excel表。



迁移学习Transfer Learning

  本质上是希望通过与目标对象不那么相关的数据(例如利用大象老虎的图片去分类猫狗的图片)发现潜在的共性特征,利用潜在的共性特征去分类识别。
  在图像识别中,经常使用Transfer Learning的方法。其思路是:先利用CNN训练一大堆数据,CNN的隐含层相当于特征提取层。用于新的数据时,保持原来的网络结构的前面部分不变,相当于构建了隐含特征,通过调整后面部分的网络参数实现对新数据的识别。

Self-talk Learning

  Self-talk Learning与Transfer Learning很像,都有除了猫狗以外的大象老虎的数据。不同之处是:Transfer Learning的大象老虎数据是有标签的,Self-talk Learning的大象老虎数据是无标签的。
  乍看之下,Self-talk Learning很难,从不相关的无标签数据中可以获得什么呢?仔细思考下,以图像为例,像素空间的向量分布是很稀疏的,实际空间的维度并不需要这么高。不论是0-9还是a-z都是由不同的笔触组成的,如果可以通过无监督的a-z学习到笔触的表现形式,那么对于0-9的数据,先转化成笔触再进行识别便有可能取得较高的识别精度。
  Self-talk Learning的例子如下:
识别数字0-9,有a-z的无标签的字符数据
新闻文本分类,有网络上爬的各种文本
汉语识别,有网络上英语、西班牙语的语料数据”


论外

  机器学习任务可以划分为监督学习、无监督学习、和弱监督学习。
  弱监督学习的目的,与监督学习一致,然而其获得的样本并没有完整的标记。从标记缺失的形式和处理方式的不同,又可以分为半监督学习、主动学习、多示例学习/多标记学习、和强化学习。

  1)半监督学习中,只有少量的样本具有标记;
  2)主动学习中,机器可以询问真实的标记,但需要考虑询问的代价;
  3)多示例学习中,一个对象表示为一组样本的包,而标记只在包的层面上,在样本的层面上却没有标记;
  4)多标记学习中,一个样本对应一组标记,因此需要处理巨大的标记组合空间问题;
  5)强化学习中,机器需要探索环境来获得样本,并且学习的目的是长期的奖赏,因此样本的标记是延迟的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值