1-机器学习方法概述

本文只是一个简单概述,相当于一个目录

机器学习框架

如下图所示,机器学习方法包括三大步,第一步需要建立模型,也就是确立函数模板(是人需要完成的),然后要确定衡量的标准,也就是定义一个函数来衡量前面建立的函数模型好坏(由人完成),最后参数学习交给机器完成(参数方法里除了梯度下降法还有牛顿法等等多种方法)。

不管是哪种传统机器学习方法,它要求样本特征值都是已知的。但是在某些问题中样本的特征值很难获得,比如在智能交通中要去判断采集的一张图片是否为车辆,传统的学习方法你要去设计这个车的特征,比如圆形车轮,方形车牌等等。但是这种方法存在很大的局限性,比如遭到碰撞的车对于传统机器学习方法来说很难解决,那么有没有一种方法能够学习特征,让方法自己去学习这个特征,这就是人工神经网络需要达到的目的。(人工神经网络在本专栏的另一篇)

机器学习方法按照他解决的办法分为三大类:分类问题,回归问题和聚类问题

机器学习根据他采用的数据集是否有标签又分为有监督学习和无监督学习                                                       有监督学习:从给定的有标注的训练数据集中学习出一个函数,当新数据到来时可以根据这个函数预测结果。常见的任务包括分类和回归。                                                                                      无监督学习:没有标注的训练数据集,需要对样本间的统计规律进行分析。常见任务如聚类等。

一,分类问题

分类问题包括分类决策树,贝叶斯,支持向量机,逻辑回归,集成学习

分类问题举例:给定训练集后学习出一个函数,当再有数据到来时会根据训练出的函数来判断这个数据对应的是哪一个类。如下图老人和年轻人的分类。分类问题的数据通常是离散的,他不像回归问题一样可以拟合出一条曲线

分类问题是监督学习的核心问题,他从数据中学习一个分类决策函数或分类模型,对新的输入进行输出预测,输出变量取有限个离散值。如邮件分为正常邮件和垃圾邮件的二分类问题,再如车分为轿车,摩托车,公交车等的多分类问题。

  • 分类模型性能评价指标:

准确率:是指在分类中,分类正确的记录个数占总记录个数的比值

召回率(查全率):是指在分类样本中样本中的正例有多少被预测正确了。

一般来说,准确率高的召回率低,召回率高时,准确率偏低。

举个例子具体说明区别:一个城市路网中有1400辆小轿车,300辆公交巴士,700辆自行车,现在以路网摄像头抓拍到小轿车为目的,共拍到了1200辆小轿车,300辆公交巴士,500辆自行车,那么,这些指标分别如下:                                                                                                                                   正确率:1200/(1200+300+500)=60%                                                                                           召回率:1200/1400=85.7%                                                                                               

二,回归问题

回归问题包括线性回归,回归决策树,岭回归,Lasso回归

根据自变量个数可以分为一元线性回归分析和多元回归分析;根据自变量和因变量的关系可以分为线性回归分析和非线性回归分析。根据因变量个数可以分为简单回归分析,多重回归分析。

回归问题举例:根据数据拟合出一条直线或曲线,当自变量x为某值时,可以根据拟合线来估计它对应的y值,如下图拟合对电动车剩余里程和电量的关系的直线。

回归分析用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量值随之发生变化。

三,聚类问题

聚类问题包括K-means,高斯混合聚类,密度聚类,层次聚类

聚类问题举例:如以下样本并没有标签,但是可以根据他们之间的距离把他们分为三类。聚类可以根据不同特性聚成不同的类

聚类问题根据样本间的相似度进行类别归纳,对新的输入进行输出预测,输出变量取有限个离散值。聚类问题可以作为一个单独过程,用于寻找书局内在的分布结构,也可以作为分类和稀疏表示等其他学习任务的前驱过程。

四,Python-Sklearn库

Sklearn全称为scikit-learn,其中封装了大量的机器学习算法,包括分类,回归,降维和聚类四大机器学习算法。还包括了特征提取,数据处理和模型评估三大模块。
sklearn是Scipy的扩展,建立在Numpy和matplolib库的基础上,利用这几大模块的优势,可以大大的提高机器学习的效率。

官方文档地址:https://scikit-learn.org/stable/

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值