机器学习总结(一)
一、基本概念
1、有监督学习:输入数据是带有标签的,称为有监督学习。
2、无监督学习:输入数据是不带标签的,称为无监督学习。
3、局部最优:函数值空间的一个有限区域内寻找最小值,这个最小值,是小于或等于附近点的函数值,但是有可能大于较远距离的点;
4、全局最大值:在函数值空间整个区域内寻找最小值。
二:机器学习的学习方式
1、监督学习
特征:监督学习是利用已知正确答案的实例来训练网络,输入数据要和其标签一一对应。
应用场景:分类问题和回归问题
算法:支持向量机、朴素贝叶斯、逻辑回归、K近邻、决策树、随机森林、AdaBoost以及深度学习。
2、非监督学习
特征:数据没有被标识,适用于无标签的数据集
应用场景:关联规则的学习和聚类等
算法:k-Mean算法、Apriopri算法
三、特征工程
特征工程:是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。本质上,特征工程是一个表现和展现的数据的过程。
数据类型有:结构化数据和非结构化数据。
1、特征归一化
为了消除数据特征之间的量纲影响,需要对特征进行归一化处理,都统一到一个大致相同的数值区间内,使得不同指标之间具有可比性。
常用方法:
(1)、线性函数归一化
(2)、零均值归一化
将原始数据映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么 归一化公式定义为
2、类别型特征
类别型特征,主要是指性别、血型等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少量模型能直接使用字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转化为 数值