机器学习(一)

最新推荐文章于 2022-09-23 17:11:36 发布

fehanh

最新推荐文章于 2022-09-23 17:11:36 发布

阅读量874

点赞数 1

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45139997/article/details/121074403

版权

本文介绍了机器学习的基础知识，包括经验与数据的关系、学习算法、数据集、模型空间和评估方法。讨论了错误率、精度、过拟合与欠拟合，以及线性模型和决策树。同时，提到了神经网络的构成和学习过程，如感知机、多层前馈神经网络及BP算法，还探讨了全局最小和局部最小解的问题。

摘要由CSDN通过智能技术生成

一、绪论

机器学习：基于经验做出预测。主要内容是从数据中产生“模型”的算法，即“学习算法”。

经验：经验通常以数据形式存在

（色泽=青绿；根蒂=蜷缩；敲声=浊响

色泽=乌黑；根蒂=稍蜷；敲声=沉闷

色泽=浅白；根蒂=硬挺；敲声=清脆）

数据集：一组记录的集合

示例（样本）：每条记录

属性：（色泽；根蒂；敲声）

属性值：（青绿；蜷缩；浊响）

属性空间（样本空间，输入空间）：属性张成的空间

特征向量：示例在属性空间对应的坐标向量

维数：每个示例属性的数量

学习（训练）：从数据中学的模型

训练数据：训练中使用的数据

训练样本：训练中使用的每个样本

训练集：训练样本组成的集合

假设：学得模型对应关于数据的某种潜在的规律

标记：训练样本结果信息

样例：拥有标记的示例

分类：预测任务为离散值，例如”好瓜“”坏瓜“

回归：预测任务为连续值

测试：使用模型进行预测的过程

聚类：按照属性值将示例分组

泛化：学得模型适用于新样本的能力

假设样本空间中全体样本服从一个未知的”分布“D，我们获得的每个样本都是独立的从这个分布上采样获取的，即”独立同分布“，训练样本越多，D信息越多，越有可能通过学习获得具有强泛化能力的模型。

归纳：从具体的事实归接触一般性规律

演绎：从一般到特殊的”特化“过程

归纳偏好：机器学习算法在学习过程中对某类假设的偏好

假设空间：将所有假设组成的空间

版本空间：与训练集一致的”假设空间“

二、模型空间

错误率：分类错误的样本数占样本总数的比例

精度：1-错误率

误差（分为训练误差和泛化误差）：学习器的实际预测输出与样本的真实输出的差异

过拟合：把训练样本自身的特点当成所有潜在样本的特点，导致泛化性能下降。

欠拟合：指队训练样本的一般性质未学好

评估

测试集：测试学习器对新样本的判别能力。以测试集的”测试误差“作为泛化误差近似。（测试集尽量与训练集互斥）

产生训练集和测试集的方法：

1.留出法

直接将数据集华为两个互斥的集合，训练集S，测试集T

（一般采用若干次随即划分、重复进行实验取平均值作为结果）

2.交叉验证法

将数据集分为k个大小相似的互斥子集（每个子集尽量保持数据分布一致性，分层采样），每次利用k-1个训练集，一个作为训练集，最终返回k次实验的均值。

（若k=m，留一法）

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。