西瓜书+南瓜书【 第0章 导学 】【第1章 绪论】笔记

第0章 导学

人工智能:让机器变得像人一样拥有智能的学科

机器学习:让计算机像人一样能从数据中学习出规律的一类算法

深度学习:神经网络类的机器学习算法

人工智能>机器学习>深度学习

第1章 绪论

假设空间:假设的算法的集合,

版本空间:所有能够你和训练集的模型(假设)构成的集合称为“版本空间”。

算法:从数据中学得“模型”的具体方法,例如线性回归、对数几率回归、决策树等。

模型:“算法”产出的结果称为模型,通常是具体的函数或者可抽象地看作为函数,例如一元一次线性回归算法产出的模型即形如f(x)=wx+b的一元一次函数。

样本:也称为“示例”,是关于一个事件或对象的描述。

特征:向量中的各个维度称为“特征”或“属性”。

特征工程:对中文字符数值化,将特征属性的描述转化成数字输入电脑。

标记:机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为标记。标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为(x,y):

一条西瓜样本:x=(青绿;蜷缩;清脆),y=好瓜;

一条房价样本:x=(1所),y=1万/m²。

样本空间:表示样本的特征向量所在的空间为样本空间,也称为“输入空间”或“属性空间”。通常用花式大写的\chi表示。

标记空间:标记所在的空间称为“标记空间”或“输出空间”,数学表示为花式大写的\gamma

标记的取值类型:当标记取值为离散型时,称此类任务为“分类”,例如学习西瓜是好瓜还是坏瓜。当分类的类别只有两个时,称此类任务为“二分类”,通常称其中一个为“正类”,另一个为“反类”或“负类”;当分类的类别超过两个时,称此类任务为“多分类”。由于标记也属于样本的一部分,通常也需要参与运算,将其数值化。正类记为1,反类记为0等。

当标记取值为连续型时,称此类任务为“回归”。通常只有取值范围,回归任务的标记取值范围通常是整个实数域R,即Y=R。

是否用到标记信息

模型训练阶段有用到标记信息时,称此类任务为“监督学习”,例如第3章线性模型。

模型训练阶段没用到标记信息时,称此类任务为“无监督学习”,例如第9章的“聚类”。

数据集:数据集通常用集合来表示,令集合D={x1,x2,...,xm}表示包含m个样本的数据集,一般同一份数据集中的每个样本都含有相同个数的特征,假设此数据集中的每个样本都含有d个特征,则第i个样本的数学表示为d维向量(xi1,xi2;...;xid),其中xij表示样本xi在第j个属性上的取值。

模型:机器学习的一般流程如下:首先收集若干样本(假设此时有100个),然后将其分为训练样本(80个)和测试样本 (20个),其中80个训练样本构成的集合称为“训练集”,20个测试样本构成的集合称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。

机器学习算法最终学得的模型可以抽象地看作为以样本x为自变量,标记y为因变量的函数y =f(x),即一个从输入空间\chi到输出空间\gamma的映射。例如在学习西瓜的好坏时,机器学习算法学得的模型可看作为一个函数f(x),给定任意一个西瓜样本xi=(青绿;蜷缩;清脆),将其输入进函数即可计算得到一个输出yi=f(xi),此时得到的yi便是模型给出的预测结果,当yi取值为1时表明模型认为西瓜xi是好瓜,当yi取值为0时表明模型认为西瓜xi是坏瓜。

泛化:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确与否才是衡量一个模型好坏的关键,我们称此为“泛化”能力。

分布:此处的”分布”指的是概率论中的概率分布,通常假设样本空间服从一个未知“分布“D,而我们收集到的每个样本都是独立地从该分布中采样得到,即“独立同分布”。通常收集到的样本越多,越能从样本中反推出D的信息,即越接近真相。

归纳偏好:在”房价预测”的例子中,当选用一元线性回归算法时.学得的模型是一元一次函数,当选用多项式回归算法时,学得的模型是一元二次函数,所以不同的机器学习算法有不同的偏好,我们称为“归纳偏好”。基于模型在测试集上的表现来评判模型之间的优劣。

数据(数据量和特征工程两个角度)决定模型效果的上限,算法则是让模型无限逼近上限。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值