机器学习概览-残
机器学习简介
什么时候该使用机器学习
问题的解决方案很复杂,或者问题可能涉及大量的数据却没有明确数据分布函数
遇到下面的情况,可以考虑使用机器学习:
- 规则十分复杂或者无法描述,比如人脸识别和语音识别
- 任务的规则会随着时间而改变,比如词性标注,随时都会产生新的词或词义
- 数据分布本身随时间变化,需要程序不停的重新适应,比如预测商品销售的趋势
机器学习算法的理性认识
- 目标函数f未知,学习算法无法得到钱一个完美的函数f
- 假设函数g逼近函数f,但是可能和函数f不同
机器学习解决的主要问题
机器学习可以解决多种类型的任务,下面列出最典型的常见的三种:
- 分类:
计算机程序需要指定输入属于k类中的哪一类。为了完成这个任务,学习算法通常会输出一个函数f:Rn→(1,2,…k)。比如计算机视觉中的图像分类算法解决的就是一个分类任务。
- 回归:
这类任务中,计算机程序会对给定输入预测输出数值。学习算法通常会输出一个函数f:Rn→R,这类任务的一个示例是预测投保人的索赔金额(用于设置保险费),或者预测证券未来的价格。
- 聚类:
对大量未知标注的数据集,按数据的内在相似性,将数据划分为多个类别,是类别内的数据相似度较大,而类别间的相似性比较小。可以被运用在图片检索,用户画像等场景中
分类和回归是预测问题的两种主要类型占到80%-90%,分类的输出是离散的类别值,而回归的输出是连续数值。
机器学习分类
监督学习
利用已知类别的样本,训练学习得到一个最优模型,使其达到所要求性能,再利用这个训练所得模型,将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,即可以对未知数据进行分类 。
-
回归问题
(1) 定义:反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系。
(2) 特性:通常情况下,回归问题都是在拟合一个趋势。
(3) 举例:
* 下周股票能给我带来多少收益?
* 周二的温度会是多少摄氏度? -
分类问题
(1) 定义:分类问题属于有监督学习,通过分类模型,将样本数据集中的样本映射到某个给定的类别中。
(2) 特性:非A即B的选择问题
(3) 举例:
* 明天早高峰时间段XX路上会堵车吗?
* 哪种手段更吸引顾客:5元代金券or打75折?
无监督学习
对于没有标记的样本,学习算法直接对输入数据集进行建模,例如聚类即“物以类聚,人以群分”。我们只需要把相似度高的东西放在一起,对于新来的样本,计算相似度后,按照相似程度进行归类就好。
- 聚类问题
通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大。
举例:
* 哪些观众喜欢看同一题材的电影?
* 这些零部件中哪些破损的方式是相似的?
半监督学习
试图让学习器自动地对大量未标记数据进行利用以辅助少量有标记数据进行学习。
强化学习
学习系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对在这里插入图片描述
产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。
机器学习的整体流程
其他机器学习重要方法
机器学习的常见算法
案例讲解
备注
笔记内容来自于华为ilearningX课程:机器学习概览;
视频地址:机器学习概览