机器学习概述

最新推荐文章于 2024-03-25 21:23:34 发布

黄乐荣

最新推荐文章于 2024-03-25 21:23:34 发布

阅读量291

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_43717681/article/details/104181419

版权

数据分析专栏收录该内容

20 篇文章 3 订阅

订阅专栏

机器学习是从人工智能中产生的一个重要学科分支，是实现智能化的关键

`发展过程`

推理期（20世纪50-70年代初）
认为只要给机器赋予逻辑推理能力，机器就能具有智能

知识期（20世纪70年代中期）
认为要使机器具有智能，就必须设法使机器拥有知识

学科形成（20世纪80年代）
20世纪80年代是机器学习称为一个独立学科领域并开始快速发展，各种机器学习技术百花齐放

繁荣期（20世纪80年代-至今）
20世纪90年代后，统计学习方法占主导，代表为SVM
2006至今，大数据分析的需求，神经网络被重视，成为深度学习理论的基础

`机器学习方法`

有监督学习

有监督学习（supervised learning）：从给定的有标注的训练数据集中学习出一个函数（模型参数），当新的数据到来时可以根据这个函数预测结果。常见任务包括=分类和回归（我们有一套试卷，并且有试卷答案，我们通过不断对答案，来提高我们做卷子的能力）。这类算法必须知道预测什么，即目标变量的分类信息。

典型的监督学习方法：决策树、支持向量机（SVM）、监督式神经网路等分类算法和线性回归等回归算法

监督学习目标：利用一组带有标签的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据，达到分类（输出是离散）或回归（输出是连续的）的目的

无监督学习

无监督学习（unsupervised learning）：没有标注的训练数据集，需要根据样本间的统计规律对样本集进行分析，常见任务如聚类等

（就好比我们做试卷没有标准答案，我们无法通过对答案来进行学习。也正因为没有标准答案，所以方法多种多样，言之有理即可）。

无监督学习中，训练数据包含一组输入向量而没有相应的目标值。这类算法的目的可能是发现原始数据中相似样本的组合（聚类），或者确定数据的分布（密度估计），或者把数据从高维空间投影到低维空间（降维）以便进行可视化

无监督学习的数据没有类别信息，也不会给定目标值。此外，无监督学习还可以减少数据特征的维度，以便我们可以使用二维码或三维图更加直观的展示数据信息。

半监督学习

半监督学习（Semi-supervised learning）：结合【少量的】标注训练数据和【大量的】未标注数据来进行数据的分类学习

算法上，包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测

例如：给学生很多未分类的书本与少量的清单，清单上说明那些书属于同一类别，要求对其他所有的书本进行分类

半监督学习有两种基本假设
聚类假设：处在相同聚类中的样本实例有较大的可能拥有相同的标记。根据该假设，决策边界就应该尽量通过数据较为稀疏的地方
流形假设：处于一个很小的局部区域内的样本实力具有相似的性质，因此，其标记也应该相似。在该假设下，大量未标记示例的作用就是让数据空间变得更加稠密，从而有助于更加准确的刻画局部特性，使得决策函数能够更好的进行数据拟合

增强学习

增强学习（Reinforcement learning）：外部环境对输出只给出评价信息而非正确答案，学习机通过强化受奖励的动作来改善自身的性能

主要特点是通过试错来发现最优行为策略而不是带有标签的样本学习

主要包含四个元素，agent，环境状态，行动，奖励，强化学习的目标就是获得最多的累计奖励

例如：小孩学走路、下棋、机器人、自动驾驶

多任务学习

多任务学习（Multi-task learning）：把多个相关（related）的任务放在一起同时学习
单任务学习时候，各个人物之间的模型空间是相互独立的，但现实世界中很多问题不能分解为一个一个独立的子问题，且这样忽略了问题之间所包含的丰富的关联信息。多任务学习就是为了解决这个问题所诞生的。多个任务之间共享一些因素，他们可以在学习过程中，共享他们所学到的信息，相关联的多任务学习比单任务学习具备更好的泛化效果

在这里插入图片描述