WoneDai-CSDN博客

原创第二章—模型评估与选择

比如现在要通过一些用户属性去预测其消费能力，结果有两个样本，一个样本中大多数都是高等级活跃会员，另一个则是大部分是低质量用户，两个样本预测出来的数据的差异就非常大，也就是模型在两个样本上的方差很大。时，则需要使用Friedman检验。Friedman检验是一种基于模型性能排序的检验方法，它在同一个数据集上依据某些性能评价指标对多个模型的性能好坏进行排序，进而获得多个模型在一组数据集上的性能排序结果，依照此结果平均计算得到在这组数据集上的平均性能排序，倘若不同模型的性能相同时，它们的平均性能排序应该相同。

2023-09-16 21:36:06 457 1

原创论文1—BPR: Bayesian Personalized Ranking from Implicit Feedback（基于隐式反馈的贝叶斯个性化排名）

训练的数据集是多个三元组的的条目，其含义表示的是用户u对i的选择优先级要高于j。在BPR算法中，我们将任意用户u对应的物品进行标记，如果用户u在同时有物品i和j的时候点击了i，那么我们就得到了一个三元组，它表示对用户u来说，i的排序要比j靠前。U代表所有用户user集合；I代表所有物品item集合；S代表所有用户的隐式反馈，。那些为观察到的数据（即用户没有产生行为的数据）标记为？。

2023-07-11 12:46:16 1025 2

原创矩阵分解----MF

矩阵P(n,K)表示n个user和K个特征之间的关系矩阵，这K个特征是一个中间变量，矩阵Q(K,m)的转置是矩阵Q(m,K)，矩阵Q(m,K)表示m个item和K个特征之间的关系矩阵，这里的K值是自己控制的，可以使用交叉验证的方法获得最佳的K值。为了得到近似的R(n,m)，必须求出矩阵P和Q。

2023-05-09 12:53:46 468

原创 UserCF算法在MovieLens数据集的运用

再通过User-Item表查询到用户A喜欢的物品列表{a,b,d}，用户D喜欢的物品列表{c,d,e}，故用户A、D喜欢物品的交集是{a,b,c,d,e}，其中用户C喜欢的列表是{b,e}，为了避免重复推荐用户已经喜欢的物品，所以要先从物品列表中去掉用户C已经喜欢的物品，故最终待推荐的物品列表为{a,c,d}。接着按照用户C对待推荐物品感兴趣程度对待推荐列表进行逆序排序，得到最终的推荐列表{d,a,c}，我们可以将整个推荐列表或者取前K个物品推荐给用户C。，也就没有必要计算了。

2023-05-05 11:39:07 468

原创 ItemCF算法在MovieLens数据集的运用

其实是一个推荐系统和虚拟社区网站，它由美国 Minnesota 大学计算机科学与工程学院的项目组创办，是一个非商业性质的、以研究为目的的实验性站点。GroupLens研究组根据MovieLens网站提供的数据制作了MovieLens数据集合，这个数据集合里面。本文均用MovieLens数据集来代替整个集合。MoveLens是一个数据集合，其中根据创建时间、数据集大小等分为了若干个子数据集。。本文以MovieLens 1M Dataset为例，具体介绍下此数据集，其它MovieLens数据集也大都类似。

2023-05-03 22:15:18 1685

原创协同过滤算法（例题理解）

协同过滤算法是一种推荐系统算法，它利用用户对物品的评价数据来预测用户对未评价物品的喜好程度。。因此，协同过滤算法将用户之间的。该算法分为基于用户的协同过滤和基于物品的协同过滤两种类型。

2023-04-24 16:10:24 4315 3

原创基于鸢尾花数据集的预测评价指标---MSE\RMSE

4、MSE假设服从标准高分布，而MAE服从拉普拉斯分布而拉普拉斯分布本身就对异常值更具鲁棒性，当异常值出现时，拉普拉斯分布相比高斯分布受到的影响要小很多，因此以拉普拉斯分布假设的MAE在处理异常值是比高斯分布假设的MSE更加鲁棒。也就是说， MSE 会对误差较大（>1）的情况给予更大的惩罚，对误差较小（<1）的情况给予更小的惩罚。因为 MAE 计算的是误差 y-f(x) 的绝对值，无论是 y-f(x)>1 还是 y-f(x)<1，没有平方项的作用，惩罚力度都是一样的，所占权重一样。误差越大，该值越大。

2023-04-15 10:57:58 1741

原创鸢尾花数据集体现一元线性回归

在这个问题中，我们使用了相同的数据集、模型和参数，但是使用了不同的优化算法，包括批量梯度下降（BGD）、小批量梯度下降（MBGD）和随机梯度下降（SGD），下面我们来分析它们的差异。BGD的结果是，1000次迭代，代价函数随迭代次数的变化曲线呈现出单调下降的趋势。MBGD的结果是，1000次迭代，代价函数随迭代次数的变化曲线呈现出波动性下降的趋势。SGD的结果是，1000次迭代，代价函数随迭代次数的变化曲线呈现出波动性下降的趋势。

2023-04-11 16:42:21 1906 1

原创什么是数据集？

例如，如果我们想要训练一个分类模型，我们可以把训练集中的每个数据样本都标上正确的标签，然后通过训练集中的数据样本来调整模型的参数和权重，以便让模型在预测未知数据时能够正确地分类。数据集的质量对机器学习算法和模型的性能和准确度有很大的影响。测试集的结果可以帮助我们评估模型的准确度、泛化能力等指标，从而帮助我们选择最佳的模型。在调整超参数时，我们可以使用验证集来评估不同超参数下模型的性能表现，从而找到最优的超参数组合。在使用机器学习模型对新数据进行预测时，我们需要评估模型的性能和准确度，以便选择最优的模型。

2023-04-10 21:38:46 23618 1

转载一元线性回归学习记录

为了方便代码的编写，我们会将所有的公式都转换为矩阵的形式，我们有两个变量，为了对这个公式进行矩阵化，我们可以给每一个点x增加一维，这一维的值固定为1，这一维将会乘到Θ0上。我们的构想是选取的参数和使得函数尽可能接近y值，这里提出了求训练集(x,y)的平方误差函数（Squared Error Function）或最小二乘法。我们的目的是使最小化，从而最好的将样本数据集进行拟合，更好地预测新的数据。代价函数中的变量有两个，所以是一个多变量的梯度下降问题，求解出代价函数的梯度，也就是分别对两个变量进行微分。

2023-04-06 16:16:02 445 1

原创梯度下降法-以y=x^2为例

梯度下降法又被称为最速下降法，其理论基础是梯度的概念。。对于一个无约束的优化问题，例如简单理解即为，随机选择一个 x 点，如同下山一样如何快速的走出一条到达山脚的路线，即利用每走一步的函数倒数及梯度的指向来进行迭代下降；同时每个人下山个性也有不同，有的激进，有的保守，这就涉及到梯度下降中的学习率设定问题（可借助之后代码演示体验）；在确定下山性格后，还要设定一个到达山脚的评判标准及迭代次数判断和设定误差区间判定。在处的切线。显然在处函数取得最小值。沿着梯度的方向是下降速度最快的方向。

2023-04-05 09:49:59 1506 3