机器学习入门

机器学习算法

    机器学习算法可以分为传统的机器学习算法和深度学习。传统机器学习算法主要包括以下五类:

 回归:建立一个回归方程来预测目标值,用于连续型分布预测
分类:给定大量带标签的数据,计算出未知标签样本的标签取值
聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征
关联分析:计算出数据之间的频繁项集合
降维:原高维空间中的数据点映射到低维度的空间中

线性回归:找到一条直线来预测目标值

线性回归的应用非常广泛,例如:
预测客户终生价值: 基于老客户历史数据与客户生命周期的关联关系,建立线性回归模型,预测新客户的终生价值,进而开展针对性的活动。

   **机场客流量分布预测**: 以海量机场WiFi数据及安检登机值机数据,通过数据算法实现机场航站楼客流分析与预测。

   **货币基金资金流入流出预测**: 通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息,对用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。

   **电影票房预测**: 依据历史票房数据、影评数据、舆情数据等互联网公众数据,对电影票房进行预测。

逻辑回归:找到一条直线来分类数据

逻辑回归虽然名字叫回归,却是属于分类算法,是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中,预估事件出现的概率并分类。
Sigmoid是归一化的函数,可以把连续数值转化为0到1的范围,提供了一种将连续型的数据离散化为离散型数据的方法。
因此,逻辑回归从直观上来说是画出了一条分类线。位于分类线一侧的数据,概率>0.5,属于分类A;位于分类线另一侧的数据,概率<0.5,属于分类B。

K-近邻:用距离度量最相邻的分类标签

可以使用K近邻算法,其工作原理如下:
    
   1. 计算样本数据中的点与当前点之间的距离
   2.算法提取样本最相似数据(最近邻)的分类标签
   3. 确定前k个点所在类别的出现频率. 一般只选择样本数据集中前k个   最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数
   4.返回前k个点所出现频率最高的类别作为当前点的预测分类
 
使用K近邻算法的进行识别的具体步骤为:

    1.首先将每个图片处理为具有相同的色彩和大小:宽高是32像素x32像素。
    2.将3232的二进制图像矩阵转换成11024的测试向量。
    3.将训练样本储存在训练矩阵中,创建一个m行1024列的训练矩阵,矩阵的每行数据存储一个图像。
    4.计算目标样本与训练样本的距离,选择前
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值