机器学习的概念和相关术语

本文探讨了数据知识提取作为统计学、人工智能和计算机科学交叉领域的关键,介绍了监督学习与无监督学习的区别,强调特征提取的重要性。文章还讨论了分类、回归任务,以及泛化、过拟合和欠拟合的概念,指导如何构建高效机器学习模型。
摘要由CSDN通过智能技术生成

定义

从数据中提取知识

是统计学、人工智能、计算机科学的交叉学科

优点

解决一个问题时, 不必需求改变一点就重新写整个系统

分类

监督学习

在训练时有输入数据和输出数据对机器进行训练,在正式测试时能够根据训练结果使得输出更加准确

无监督学习

在训练时只有输入数据,没有输出数据

  • 无论是监督学习还是无监督学习,将输入数据表征为计算机容易理解的数据形式都非常重要
  • 计算机最容易理解的数据表征是表格形式
  • 如何构建良好的数据表征,称为特征提取或者特征工程
  • 一般来说,表格形式的数据,一行称为一个样本或数据点,一列称为特征

解决的问题

在机器学习中,最重要的是你能够理解数据的内容,以及数据与你要解决的问题之间的关系

在开始构建模型之前,你要理解你的数据集的数据,每一种算法适合的数据类型输入以及擅长解决的问题都不一样

  • 监督学习时最常用也是最常用机器学习类型之一
  • 给定输入来预测输出的某个结果,并且还有输入输出的示例时,使用监督学习

给定的输入输出示例构成了训练集,我们利用训练集来构建机器学习模型

构建完模型后利用这个模型对新出现的数据做出准确预测,这是我们的目标

监督学习需要人力来构建数据集,但是之后的任务非常快

分类与回归

监督学习的问题主要分为分类问题和回归问题

分类

  • 分类问题是对一个新数据进行分类,预测它们的类别标签,这些标签是来自预定义的可选列表中的,也就是类别是提前就有的
  • 分类问题分为二分类问题和多分类
  1. 二分类:预定义的类别标签就两个

二分类的类别分为正类和反类

  1. 多分类:有两个以上的预定义类别标签

回归

  • 回归任务的目标是预测一个连续值,编程术语叫作浮点数(floating-point number),数学术语叫作实数(real number)。

区分分类任务和回归任务有一个简单方法,就是问一个问题:输出是否具有某种连续性

如果在可能的结果之间具有连续性,那么它就是一个回归问题

泛化、过拟合和欠拟合

  1. 泛化

机器学习就是在训练集上构建数据,然后对新数据做出预测

如果可以对新数据做出准确预测,这个模型就有泛化能力

我们需要构建一个泛化精度较高的模型

  1. 过拟合

模型过于复杂,考虑了很多不太相干的因素

  1. 欠拟合

模型过于简单

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值