机器学习日志

最新推荐文章于 2022-05-10 23:45:28 发布

我们都是微粒

最新推荐文章于 2022-05-10 23:45:28 发布

阅读量599

点赞数

分类专栏：个人日志文章标签：机器学习

本文链接：https://blog.csdn.net/yangmu888858/article/details/87868523

版权

个人日志专栏收录该内容

52 篇文章 6 订阅

订阅专栏

                                            第一章  绪论
                                       
研究内容：在计算机上从数据中产生“模型”的算法，即“学习算法”。

基本术语：1、数据集（data set）：一组“特征向量”的集合；2、示例（instance）或样本（sample）：数据集中的一个具体的对象；
3、特征（feature）或属性（attribute）：对象在某些方面的
表现和性质的事项；4、属性值（attribute value）：属性上的取值；5、属性空间或样本空间或输入空
间：属性张成的空间；6、特征向量：每个示例都可以在属性空间中找到对应的点，所以我们把一个示
例称为一个特征向量。7、维数：若每个示例都由d个属性描述，则d称为示例的维数。8、学习或训
练：从数据中学得模型的过程，该过程通过执行某个学习算法来完成。9、训练过程中使用的数据称为“训练数
据”；其中每个样本称为“训练样本”；训练样本组成的集合称为“训练集”；10、假设：学得模型对应了关
于数据的某种潜在规律； 真相：这种潜在的自身规律。（学习过程就是为了找出或逼近真相） 11、标
记：训练样本的结果信息；样例：拥有了标记信息的示例；标记空间或输出空间：所有标记的集合；
12、“分类”：若预测的值为离散值，此类学习任务被称为“分类”；13、“回归”：若预测的为连续值，则
此类学习任务被称为“回归”； 14、只涉及“二分类”任务时，通常称一个为“正类”，另一个则为“反类”；
15、测试：学得模型后，使用其进行预测的过程；16、“监督学习”：分类和回归等训练数据拥有标记
信息的学习过程；17、“无监督学习”：“聚类”等训练数据没有标记信息的学习过程；18、泛化：学得
模型适用于新样本的能力；19、“独立同分布”：假设样本空间中全体样本服从一个未知“分布”，我们
获得的每个样本都是独立地从这个分布上采样获得的。
“假设空间”：所有理论上可能的示例组成的集合。
“版本空间”：现实中我么常常面临很大的假设空间，但学习过程是基于有限样本训练集进行的，因此可能
有多个假设与训练集一致，即存在着一个与训练集一致的假设集合，我们称之为“版本空间”。
“归纳偏好”：机器学习算法在学习过程中对某种类型假设的偏好。（归纳偏好可以看作学习算法自身在
一个庞大的假设空间中对假设进行选择的“价值观”）。
NFL定理：在所有问题同等重要的情况下，无论学习算法a多聪明，学习算法b多笨拙，他们的期望性能
相同。