机器学习
文章平均质量分 92
妖YOY
这个作者很懒,什么都没留下…
展开
-
熵的理解以及交叉熵损失函数
熵先来了解下什么是熵?信息论中熵的概念首次被香农提出,目的是寻找一种高效/无损地编码信息的方法:以编码后数据的平均长度来衡量高效性,平均长度越小越高效;同时还需满足“无损”的条件,即编码后不能有原始信息的丢失。这样,香农提出了熵的定义:无损编码事件信息的最小平均编码长度。什么编码长度呢?相对熵(KL散度)KL散度(Kullback-Leibler divergence)也叫做相对熵。若随机变量X有两个单独的概率分布p(x)和p(x),可以用相对熵来衡量这个个分布的差异,相对熵定义如下:DKL原创 2021-04-14 00:01:38 · 847 阅读 · 0 评论 -
BPR-贝叶斯个性化排序+算法
0、前言BPR(Bayesian Personalized Ranking)在很多推荐场景中,我们都是基于现有的用户和商品之间的一些数据,得到用户对所有商品的评分,选择高分的商品推荐给用户,这是funkSVD之类算法的做法,使用起来也很有效。但是在有些推荐场景中,我们是为了在千万级别的商品中推荐个位数的商品给用户,此时,我们更关心的是用户来说,哪些极少数商品在用户心中有更高的优先级,也就是排序更靠前。也就是说,我们需要一个排序算法,这个算法可以把每个用户对应的所有商品按喜好排序。BPR就是这样的一个我们原创 2020-11-20 22:38:32 · 353 阅读 · 0 评论 -
矩阵分解(MF)-推荐系统+python代码
前言推荐系统中最为主流与经典的技术之一是协同过滤技术(Collaborative Filtering),它是基于这样的假设:用户如果在过去对某些项目产生过兴趣,那么将来他很可能依然对其保持热忱。目前推荐系统中用的最多的就是矩阵分解(Matrix Factorization)方法。矩阵分解就是预测出评分矩阵中的缺失值,然后根据预测值以某种方式向用户推荐。矩阵分解可以解决一些近邻模型无法解决的问题,近邻模型存在的问题:1、物品之间存在相关性,信息量并不是随着向量维度增加而线性增加2、矩阵元素稀疏,原创 2020-10-04 20:25:47 · 1368 阅读 · 0 评论 -
梯度下降与线性回归+python代码
线性回归回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。一元线性回归...原创 2020-10-03 23:40:23 · 840 阅读 · 0 评论 -
Al-learing数学基础,平均差,方差,协方差
一、离差(Deviation)离差即标志变动度,又称“偏差”,是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标,常写作:xi−xˉx_i-\bar{x}xi−xˉ性质:离差的代数和等于0;参与计算平均数的各变量值与平均数之差的平均和,小于这些变量值与平均数之外的任何数之差的平均和。二、平均差(Mean Deviation、Average Deviation)平均差也称为均值,是数据分布中所有原始原创 2020-10-03 16:04:08 · 1555 阅读 · 0 评论 -
K近邻算法(Knn)
链接链接1链接2实例C语言实例C++语言sklearn函数实现了解个knn是干什么,算法过程就管了,直接用sklearn库from sklearn.neighbors import KNeightborsClassifier as KNNfrom sklearn import datasetskn = KNN() # 申明对象iris = datasets.load_iris() # 导入数据,这里是导入CSV库里面自带的"iris.csv"文件knn.fit(iris.data,原创 2020-09-22 23:43:32 · 272 阅读 · 0 评论 -
K-Means聚类算法--步骤+代码
0.介绍聚类和分类算法的最大区别在于,分类的目标类别为已知(监督学习),而聚类的目标类别是未知的(非监督)。K_Means算法(K_均值算法)就是无监督算法之一1.原理对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。数据表达式:假设簇划分为(C1,C2,...Ck)(C_1 ,C_2,...C_k)(C1,C2,...Ck),则我们的目标是最小化平方误差E:E=∑i=1K∑x∈Ci∣∣x−μi∣∣22E={\sum原创 2020-09-29 14:57:01 · 29988 阅读 · 4 评论