python强化20日 第一天

python强化20日(非蓝桥日)

第一天 EM算法 GMM聚类算法 相似度计算 SVM支持向量机

EM算法:


最大似然估计(模型参数thita)
  • 最大似然函数:
    l(thita) = sum(log p(xi;thita))
    函数加入应变量,即样本有两种种类时,用z=0与1来标记来自哪个分布:
    l(thita) = sum(log p(xi,thita)) = sum(logsum(p(xi,z;thita)))
  • 要求:通过样本表现状态求解模型参数thita,找到什么样的样本正好符合分布规则
  • 核心:根据样本反推最大似然估计.(什么样的参数thita能够使得出现当前这批样本的概率最大)
小重点:GMM高斯聚类模型混合
  • 意义:通过聚类算法分离多种分布的数据
  • 与K-means区别:K-means是基于距离的聚类,而GMM是基于数据内部存在的高斯分布进行聚类
原理图:

原理图来源
在这里插入图片描述

相似度计算


一些常用的相似度计算公式 :

其中皮尔逊相似度用的最为广泛
在这里插入图片描述

  • 皮尔逊相似度:
    范围在[-1,1],越接近1,相似度越高
    两个样本的皮尔逊相关度 :
    在这里插入图片描述
  • 目的(协同过滤):

通过计算相似度来进行相关物品的过滤或者匹配,典型用于电商的商品推荐,此类主要依据物品的相似度计算。而对于实时类似新闻这类,主要依据用户的相似度计算,通过对相似的物品进行特定人群推广。最终依据评价参数,修正模型。

隐语义模型:


  • 意义:

找到样本之间内在的联系,用方程表示
例如:将物品与用户通过隐含因子联系起来

支持向量机:


  • 内容:

找到决策边界

  • 核心:

决策边界越大越好
优化目标:找到一条线,使得离这条线最近的点与这条线的距离越远越好

  • 关键点:

二类与多类的使用区别以及在预测方面的作用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值