机器学习入门
主要介绍了机器学习深度学习相关名词以及概念。
1. 机器学习概念
涵盖多种算法与原理的统称,这些算法和原理的目的是对海量训练数据进行分析,并从中提取含义。
2. 深度学习概念
指代那些使用特殊分层计算结构的机器学习方法(这些分层依次堆叠),这样就形成了一个像堆叠的煎饼一样的深度结构。
3. 专家系统概念
一中发现隐藏在数据中的含义的早期流行方法设计专家系统的构建。
本质:研究了人类专家知道什么、做什么以及怎么做后,将这些行为自动化。
这通常意味构建一个基于规则的系统,这个系统会定制大量的规则,使其能够模仿人类专家。
4. 名词
- 样本:每一项观测数据
- 特征:每个被命名的测量数据或特征都有一个关联的值,通常把他存储为一个数字。
- 特征工程:
- 代价(损失/误差):计算机预测值与专家给出的标签是否匹配,如果不匹配,会计算出一个数值。
如果预测大部分是正确的,那么我们就说它具有很高的准确率,或者说泛化误差小。
- 学习率:参数更新多少。
调整学习率:通过调整学习率使得在刚开始训练的时候对系统的改进很大,但是会逐渐减小这个改动。
- 泛化能力:新的数据在模型上的表现。
- 容量(表征能力):在计算机中模型是由软件结构以及他所用的参数值组成,更庞大的程序和参数集可以引导模型从数据中学习更多内容,这是我们说他有更大的容量。
更庞大的模型会产生更好的结果但是代价是耗时、耗内存。
- 参数 vs 超参数:算法随着时间的推移自主进行修改的值称为参数;人为设定的算法值为超参数。
机器学习分类
1.监督学习
- 分类:在给出的类别中为新输入的数据选择相应的类别
- 回归:预测新输入的数据的输出
2.无监督学习:不需要使用标签来训练生成器
- 聚类
- 降噪:数据被噪声污染(数据缺失而非污染)
- 降维:减少每个样本的特征
无用特征 :轻则降低分析速度 重则影响系统准确性
解决办法 : 简化收集数据集 如果不能则收集完成在简化
好处 :节省时间 可提高结果质量
生成器 数据增强 数据生成
3. 半监督学习:不需要标签 但是有从专家得到反馈
4. 强化学习
智能体随环境改变而改变。智能体可以做决策,采取行动;环境给智能体反馈(或者是一个奖励信号:告诉智能体这样做是更接近想要结果还是更远)
强化学习中无正确结果。
总体思路:智能体先采取行动,环境接纳这个行动并且通常会作出相应改变来响应这个行动,然后环境给智能体发送一个奖励信号,告诉智能体这个操作有多好或者多坏或者无响应。
5. 深度学习:用一种特定方法解决机器学习问题
中心思想:
- 基于一系列的离散的层构建机器学习算法,若垂直堆叠,则说结果是有深度的。
- 每一层中都有一些人工神经元或感知器的计算块。
- 这些人工神经元的基本操作是读取一串数字,以特定的方式将数字加以组合然后输出一个新的数字,并将其传入下一层。
特征学习
- 深度学习可以隐式地学习如何独立自主实现特征工程。
- 探索了大量可能特征对其进行评估,而后根据评估留一些特征并丢弃其他特征,这个过程是完全独立的。
系统表征力越强(拥有更多层或者每层拥有更多的神经元)就能越发现好的特征。
Time:2023年11月16日13:49:06