第一章 绪论
研究内容:在计算机上从数据中产生“模型”的算法,即“学习算法”。
基本术语:1、数据集(data set):一组“特征向量”的集合;2、示例(instance)或样本(sample):数据集中的一个具体的对象;
3、特征(feature)或属性(attribute):对象在某些方面的
表现和性质的事项;4、属性值(attribute value):属性上的取值;5、属性空间或样本空间或输入空
间:属性张成的空间;6、特征向量:每个示例都可以在属性空间中找到对应的点,所以我们把一个示
例称为一个特征向量。7、维数:若每个示例都由d个属性描述,则d称为示例的维数。8、学习或训
练:从数据中学得模型的过程,该过程通过执行某个学习算法来完成。9、训练过程中使用的数据称为“训练数
据”;其中每个样本称为“训练样本”;训练样本组成的集合称为“训练集”;10、假设:学得模型对应了关
于数据的某种潜在规律; 真相:这种潜在的自身规律。(学习过程就是为了找出或逼近真相) 11、标
记:训练样本的结果信息;样例:拥有了标记信息的示例;标记空间或输出空间:所有标记的集合;
12、“分类”:若预测的值为离散值,此类学习任务被称为“分类”;13、“回归”:若预测的为连续值,则
此类学习任务被称为“回归”; 14、只涉及“二分类”任务时,通常称一个为“正类”,另一个则为“反类”;
15、测试:学得模型后,使用其进行预测的过程;16、“监督学习”:分类和回归等训练数据拥有标记
信息的学习过程;17、“无监督学习”:“聚类”等训练数据没有标记信息的学习过程;18、泛化:学得
模型适用于新样本的能力;19、“独立同分布”:假设样本空间中全体样本服从一个未知“分布”,我们
获得的每个样本都是独立地从这个分布上采样获得的。
“假设空间”:所有理论上可能的示例组成的集合。
“版本空间”:现实中我么常常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此可能
有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,我们称之为“版本空间”。
“归纳偏好”:机器学习算法在学习过程中对某种类型假设的偏好。(归纳偏好可以看作学习算法自身在
一个庞大的假设空间中对假设进行选择的“价值观”)。
NFL定理:在所有问题同等重要的情况下,无论学习算法a多聪明,学习算法b多笨拙,他们的期望性能
相同。
机器学习日志
最新推荐文章于 2022-05-10 23:45:28 发布