机器学习算法
机器学习算法可以分为传统的机器学习算法和深度学习。传统机器学习算法主要包括以下五类:
回归:建立一个回归方程来预测目标值,用于连续型分布预测
分类:给定大量带标签的数据,计算出未知标签样本的标签取值
聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征
关联分析:计算出数据之间的频繁项集合
降维:原高维空间中的数据点映射到低维度的空间中
线性回归:找到一条直线来预测目标值
线性回归的应用非常广泛,例如:
预测客户终生价值: 基于老客户历史数据与客户生命周期的关联关系,建立线性回归模型,预测新客户的终生价值,进而开展针对性的活动。
**机场客流量分布预测**: 以海量机场WiFi数据及安检登机值机数据,通过数据算法实现机场航站楼客流分析与预测。
**货币基金资金流入流出预测**: 通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息,对用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。
**电影票房预测**: 依据历史票房数据、影评数据、舆情数据等互联网公众数据,对电影票房进行预测。
逻辑回归:找到一条直线来分类数据
逻辑回归虽然名字叫回归,却是属于分类算法,是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中,预估事件出现的概率并分类。
Sigmoid是归一化的函数,可以把连续数值转化为0到1的范围,提供了一种将连续型的数据离散化为离散型数据的方法。
因此,逻辑回归从直观上来说是画出了一条分类线。位于分类线一侧的数据,概率>0.5,属于分类A;位于分类线另一侧的数据,概率<0.5,属于分类B。
K-近邻:用距离度量最相邻的分类标签
可以使用K近邻算法,其工作原理如下:
1. 计算样本数据中的点与当前点之间的距离
2.算法提取样本最相似数据(最近邻)的分类标签
3. 确定前k个点所在类别的出现频率. 一般只选择样本数据集中前k个 最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数
4.返回前k个点所出现频率最高的类别作为当前点的预测分类
使用K近邻算法的进行识别的具体步骤为:
1.首先将每个图片处理为具有相同的色彩和大小:宽高是32像素x32像素。
2.将3232的二进制图像矩阵转换成11024的测试向量。
3.将训练样本储存在训练矩阵中,创建一个m行1024列的训练矩阵,矩阵的每行数据存储一个图像。
4.计算目标样本与训练样本的距离,选择前