第4节--机器学习的基本概念

1、机器学习的基本概念

训练集、测试集、验证集、特征值、监督学习、非监督学习、半监督学习、分类、回归


2、从一个小例子更好地理解这些概念

我们从“小明进行水上运动,是否享受运动取决于许多因素”这个例子入手理解机器学习的一些基本概念,如下图。(注意:看不清的话,右键–在新标签页中打开图片)

这里写图片描述

每一行数据(一天)称为一个实例(instance),记为x

每个实例的属性值由天气,温度,湿度,风力,水温,预报6个属性表示

所有实例的集合(四天),称为样例,记为X

待学习的目标函数称为目标概念(target concept), 记做c。

当享受运动时,记c(x) = 1

当不享受运动时,记c(x) = 0

c(x)也可叫做y

学习目标:f: X -> Y

其实说白了,就是让我们根据“输入的属性值”和“输出的是否享受运动值”,找到两者之间的关系,也就是函数表达式f。即满足什么样的属性组合时,小明享受运动。


3、论文中常见的概念

训练集(training set/data)/训练样例(training examples):
用来进行训练,也就是产生模型或者算法的数据集

测试集(testing set/data)/测试样例 (testing examples):
用来专门进行测试已经学习好的模型或者算法的数据集

特征向量(features/feature vector):
属性的集合,通常用一个向量来表示,附属于一个实例

标记(label):
c(x), 实例类别的标记,即上边例子中的是否享受运动的“是”与“否”

正例(positive example):“享受运动”
反例(negative example):“不享受运动”


4、例子:研究美国硅谷房价

ps:图片看不清的话,右键–在新标签页中打开图片

这里写图片描述

分类 (classification): 目标标记为类别型数据(category)
即上面小明的例子,享受运动的“是”与“否”

回归(regression): 目标标记为连续性数值 (continuous numeric value)
即该例中的“房价”


5、例子:研究肿瘤良性恶性与尺寸颜色的关系

特征值:肿瘤尺寸,颜色
标记:良性/恶性

有监督学习(supervised learning): 训练集有类别标记(class label)
上面“小明”和“房价”的例子都是有监督学习,因为不管是离散的值“是”与“否”还是连续的房价,c(x)都是已知的

无监督学习(unsupervised learning): 无类别标记(class label)
“肿瘤”的例子是无监督的学习,c(x)未知

半监督学习(semi-supervised learning):
有类别标记的训练集 + 无标记的训练集


6、机器学习的步骤

1)把数据拆分为训练集和测试集
2)用训练集和训练集的特征向量来训练算法
3)用学习来的算法运用在测试集上来评估算法——可能要涉及到调整参数(parameter tuning), 用验证集(validation set)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值