机器学习(西瓜书)——读书笔记

最新推荐文章于 2022-03-23 12:00:36 发布

a昊学

最新推荐文章于 2022-03-23 12:00:36 发布

阅读量215

点赞数

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_49269330/article/details/120599851

版权

第一章绪论

第一章主要介绍了机器学习的一些基本的概念，讲到了一些基本术语和相关的发展历程和应用的现状

学习任务

分类
预测的值是离散的则称该类学习任务为分类
- 二分类：只涉及两个类别的，通常称一个为”正类“，一个为”反类“
- 多分类：涉及多个类别，则称为”二分类任务“
回归
预测的值是连续的值，则称该类学习任务为回归

泛化：我们希望学的的模型能很好的适用于”新样本“，学习的簇划分能适用于没在训练集中的出现的样本的能力就叫泛化能力

独立同分布：设样本空间中全体样本服从一个未知的分布，我们获得的样本都是独立地从这个分布上采样获得的，即独立同分布

归纳和演绎：前者是从特殊到一般的泛化过程；后者是从一般到特殊的特化过程。

学习的过程可以看成在所有假设组成的空间中进行搜索的过程，搜索的目标是找到与训练集”匹配“的假设

机器学习过程中对某种类型的假设的偏好；偏好可以看作学习算法自身在一个可能很庞大的的假设空间中对假设进行选择的启发式或价值观

结论：要谈论算法的优劣必须要针对具体的学习问题

略

略

注：训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的误差。

交叉验证法：先将数据集D分成为k个大小相似的互斥子集，每个子集都保持数据分布的一致性，然后用k-1个子集的并集作为训练集，余下的那个子集做测试集。
这样就可以获得k-1个训练/测试集，从而进行kd次训练和测试，最后取测试结果均值
- 交叉验证法又称为k折交叉验证，k常用取值是10，此时称为10折交叉验证
- 若数据集D中包含m个样本，若令k=m，则称为留一法; 缺点是数据集过大时，训练开销过大
自助法：以自助采样法为基础，给定一个包含m个样本的数据集D，没次从D中随机抽取一个样本拷贝到D‘中，执行m次。
这样就有有一部分没有被抽到，概率为(1- 1/m)^m,取极限得到0.368

注：初始数据足够多时，留出法和交叉验证法更常用些

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量。

关注