机器学习系列手记(一):机器学习基本概念和分类

本文介绍了机器学习的基本概念,包括学习、特征、样本、数据集、假设空间等,并详细阐述了机器学习的分类,如按数据类型分为分类、回归、序列标注问题,按监督方式分为有监督、无监督、强化学习等,还涉及模型分类的讨论。
摘要由CSDN通过智能技术生成

机器学习基本概念和分类

一、基本概念

      机器学习:指计算机通过观察环境,与环境交互,在吸取信息中学习、自我更新和进步。它是基于数据建立模型并运用模型对数据进行预测和分析的一门学科。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析和预测中。
      学习/训练:从数据中学得模型的过程。
      特征/属性/表示:反映事件或对象在某方面的表现或性质的事项。
      样本:关于一个事件或对象的描述。
      数据集:多条样本记录的集合。
      训练/验证/测试集:训练集是指构建模型时所使用的数据;测试集是检测模型性能所使用的数据。但是,有时候模型的构建过程中也需要检验模型,辅助模型构建,所以会将训练数据分为训练集和验证集两部分。通常会将整个数据集按7:3的比例划分为训练集和测试集,如需划分验证集,可采用5倍交叉验证法或留一法。
      输入空间/输出空间:输入和输出所有可能取值的集合。
      假设空间:一般来讲,模型是指输入到输出的一个映射。而从输入空间到输出空间的映射的集合称为假设空间。换句话说,假设空间是指若干个模型构成的模型集合,而学习的目的就是在这个假设空间(或模型集合)里找到最好的一个模型。
      数据标注:根据任务性质给数据打标签的过程。
      损失函数:用来估量你模型的预测值 f(x) f(x)f(x) 与真实 Y YY 的不一致程度。换句话,可以解释为我们构建模型得到的预测值与真实值之间的差距。

二、分类

(一)按数据分类

      分类问题:输出变量为有限个离散变量的预测问题,预测输入变量所属类别。输入变量可以是离散的,也可以是连续的。
      回归问题:输入变量和输出变量均为连续变量的预测问题,预测输入变量和输出变量之间的关系。
      序列标注问题:输入变量与输出变量均为变量序列的预测问题(常用在自然语言处理中)。

(二)按监督分类

      有监督学习:对有标签的数据进行学习,目的是能够正确判断无标签的数据。通俗的讲,老师教授学生知识,并告知学习过程中的对与错,让学生可以从所学知识的经验和技能中对没有学过的问题进行正确回答。【给定数据,经过指导,预测标签】
      无监督学习:对无标签的数据进行学习,目的是不仅能够解决有明确答案的问题,也可以对没有明确答案的问题进行预测。通俗的讲,学生通过自学学习知识,达到可以正确回答有答案的问题,也可以对无答案的问题进行预测归类。【给定数据,没有标签,寻找隐藏的结构】
      强化学习:学生学习知识时,没有老师对其进行对与错的判定,需要学生根据自己所拥有的信息自行判定对于错,但是可以通过一些方法知道你离正确答案越来越近还是越来越远(奖惩函数),通过不断试错提升任务性能。【给定数据,学习如何选择一系列行动,以最大化长期收益】
      半监督学习:已知数据和部分数据一一对应的标签,有一部分数据的标签未知,训练一个智能算法,学习已知标签和未知标签的数据,将输入数据映射到标签的过程。【标签准确但不充分】
      弱监督学习

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值