python强化20日(非蓝桥日)
第一天 EM算法 GMM聚类算法 相似度计算 SVM支持向量机
EM算法:
最大似然估计(模型参数thita)
- 最大似然函数:
l(thita) = sum(log p(xi;thita)) 函数加入应变量,即样本有两种种类时,用z=0与1来标记来自哪个分布:l(thita) = sum(log p(xi,thita)) = sum(logsum(p(xi,z;thita))) - 要求:通过样本表现状态求解模型参数thita,找到什么样的样本正好符合分布规则
- 核心:根据样本反推最大似然估计.(什么样的参数thita能够使得出现当前这批样本的概率最大)
小重点:GMM高斯聚类模型混合
- 意义:通过聚类算法分离多种分布的数据
- 与K-means区别:K-means是基于距离的聚类,而GMM是基于数据内部存在的高斯分布进行聚类
原理图:
相似度计算
一些常用的相似度计算公式 :
其中皮尔逊相似度用的最为广泛
通过计算相似度来进行相关物品的过滤或者匹配,典型用于电商的商品推荐,此类主要依据物品的相似度计算。而对于实时类似新闻这类,主要依据用户的相似度计算,通过对相似的物品进行特定人群推广。最终依据评价参数,修正模型。
隐语义模型:
找到样本之间内在的联系,用方程表示
例如:将物品与用户通过隐含因子联系起来
支持向量机:
找到决策边界
决策边界越大越好
优化目标:找到一条线,使得离这条线最近的点与这条线的距离越远越好
二类与多类的使用区别以及在预测方面的作用