![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
wxn704414736
这个作者很懒,什么都没留下…
展开
-
推荐系统1—好的推荐系统的性能
尽管不同的网站使用不同的推荐系统技术,但总地来说,几乎所有的推荐系统应用都是由前台的展示页面、后台的日志系统以及推荐算法系统3部分构成的。下面介绍各种推荐系统的评测指标。这些评测指标可用于评价推荐系统各方面的性能。用户满意度预测准确度 预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力。由于离线的推荐算法有不同的研究方向,因此下面将针对不同的研究方向介绍它们的预测准...原创 2018-05-21 15:48:13 · 1426 阅读 · 1 评论 -
推荐系统7—基于标签的推荐系统
本章将采用两个不同的数据集评测基于标签的物品推荐算法。一个是Delicious数据集,另一个是CiteULike数据集。Delicious数据集中包含用户对网页的标签记录。它每一行由4部分组成,即时间、用户ID、网页URL、标签。本章只抽取了其中用户对一些著名博客网站网页(Wordpress、BlogSpot、TechCrunch)的标签记录。CiteULike数据集包含用户对论文...原创 2018-05-30 15:46:03 · 7209 阅读 · 4 评论 -
决策树算法
部分参考https://www.cnblogs.com/taojake-ML/p/6117469.html1、简介 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。分类的时候,从根节点开始,当前节点设为根节点,当前节点必定是一种特征,根据实例的该特征的取值,向下移动,...原创 2018-05-30 16:59:10 · 1938 阅读 · 0 评论 -
支持向量机3—非线性支持向量机与核函数
本节叙述非线性支持向量机,其主要特点是利用核技巧(kernel trick)。1、核技巧非线性分类问题是指通过利用非线性模型才能很好地进行分类的问题。非线性问题往往不好求解,所以希望能用解线性问题的方法解决这个问题,所采取的方法是进行一个非线性变换,将非线性问题变换为线性问题。通过解变换后的线性问题的方法求解原来的非线性问题。核函数的定义如下。设χ是输入空间(欧氏空间Rn的子集或离散集合),又H为...原创 2018-06-21 09:50:38 · 1047 阅读 · 0 评论 -
支持向量机4—序列最小最优化算法
支持向量机的学习问题可以形式化为求解凸二次规划问题。这样的凸二次规划问题具有全局最优解,并且有许多最优化算法可以用于这一问题的求解。但是当训练样本容量很大时,这些算法往往变得非常低效,以致无法使用。所以学习一种快速实现算法——序列最小最优化(sequential minimal optimization, SMO)算法,这个算法1988年由Platt提出。SMO算法是一种启发式算法,其基本思路是:...原创 2018-06-21 13:51:29 · 918 阅读 · 0 评论 -
CART决策树
转自https://blog.csdn.net/niuniuyuh/article/details/66478262CART是Classification and Regression Tree的简称,是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。主要由特征选择,树的生成和剪枝三部分组成。它主要用来处理分类和回归问题,下面对分别对其进行介绍。1、回归树:使用平方误差最小准则训...转载 2018-06-01 10:22:16 · 4321 阅读 · 0 评论 -
iris数据集及简介
详见https://blog.csdn.net/java1573/article/details/78865495转载 2018-06-01 10:32:10 · 3697 阅读 · 0 评论 -
蒙特卡罗 马尔科夫链 与Gibbs采样
这几个概念看了挺多遍都还是含混不清,最近看了几篇博客,才算大致理解了一点点皮毛,所以来总结一下。MCMC概述 从名字我们可以看出,MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Simulation,简称MC)和马尔科夫链(Markov Chain ,也简称MC)。要弄懂MCMC的原理我们首先得搞清楚蒙特卡罗方法和马尔科夫链的原理MCMC(一)蒙特卡罗...转载 2018-06-15 11:16:38 · 2879 阅读 · 1 评论 -
支持向量机1—线性可分支持向量机与硬间隔最大化
支持向量机(support vector machine, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问题。支持...原创 2018-06-19 11:04:48 · 1517 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
转自https://blog.csdn.net/xianlingmao/article/details/7919597在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸...转载 2018-06-21 13:56:37 · 258 阅读 · 0 评论 -
支持向量机2—线性支持向量机与软间隔最大化
线性可分问题的支持向量机学习方法,对线性不可分训练数据是不适用的。因为这时上述方法中的不等式约束并不能都成立。这时就需要修改硬间隔最大化,使其成为软间隔最大化。假设给定一个特征空间上的训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)},其中xi∈χ=Rn(R的n次方),yi∈γ={-1,+1},i=1,2,...,N, xi为第i个特征向量,yi为xi的类标记。再假设训练数据...原创 2018-06-20 16:32:47 · 417 阅读 · 0 评论 -
声纹识别概念入门
转自https://blog.csdn.net/xmu_jupiter/article/details/47209961转载 2018-07-17 11:10:42 · 1239 阅读 · 0 评论 -
LDA与PCA
主成分分析(PCA)原理总结http://www.cnblogs.com/pinard/p/6239403.html用scikit-learn学习主成分分析(PCA)http://www.cnblogs.com/pinard/p/6243025.html线性判别分析LDA原理总结http://www.cnblogs.com/pinard/p/6244265.html用scikit-learn进行L...转载 2018-06-13 10:01:57 · 256 阅读 · 0 评论 -
常见损失函数
详见https://blog.csdn.net/weixin_37933986/article/details/68488339常见的损失函数通常机器学习每一个算法中都会有一个目标函数,算法的求解过程是通过对这个目标函数优化的过程。在分类或者回归问题中,通常使用损失函数(代价函数)作为其目标函数。损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的算法使用的损...转载 2018-06-06 10:36:07 · 1848 阅读 · 0 评论 -
推荐系统2—用户行为数据分析
基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这种类型的算法称为协同过滤算法。顾名思义,协同过滤就是指用户可以齐心协力,通过不断地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。用户行为数据简介 用户行为数据在网站上最简单的存在形式就是日志。网站在运行过程中都产生大量原始日志(raw log),并将其存储在文...原创 2018-05-21 18:17:29 · 2577 阅读 · 0 评论 -
推荐系统3—协同过滤算法实验设计
评测推荐系统有3种方法——离线实验、用户调查和在线实验。原创 2018-05-21 20:33:51 · 2845 阅读 · 0 评论 -
推荐算法3—基于用户的协同过滤算法
基于邻域的算法是推荐系统中最基本的算法,该算法分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。1 基础算法 在一个在线个性化推荐系统中,当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A。这种方法称为基于用户的协同过滤算法。 给定用户u和用户v,令N(u)表示...原创 2018-05-22 09:35:00 · 16140 阅读 · 1 评论 -
推荐算法4—基于物品的协同过滤算法
基于物品的协同过滤算法主要分为两步。(1) 计算物品之间的相似度。(2) 根据物品的相似度和用户的历史行为给用户生成推荐列表。1 基础算法 我们可以用下面的公式定义物品的相似度:分母|N(i)|是喜欢物品i的用户数,而分子是同时喜欢物品i和物品j的用户数。因此,上述公式可以理解为喜欢物品i的用户中有多少比例的用户也喜欢物品j。上述公式虽然看起来很有道理,但是却存在一个问题。如果物品j...原创 2018-05-22 15:33:26 · 6093 阅读 · 2 评论 -
推荐系统6—推荐系统的冷启动问题
如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动的问题。冷启动问题(cold start)主要分3类。 用户冷启动:用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时,我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐。 物品冷启动:物品冷启动主要...原创 2018-05-30 15:45:01 · 377 阅读 · 0 评论 -
推荐算法5—隐语义模型
LFM(latent factor model)隐语义模型的核心思想是通过隐含特征(latent factor)联系用户兴趣和物品。 隐含语义分析技术的分类来自对用户行为的统计,代表了用户对物品分类的看法。隐含语义分析技术和ItemCF在物品分类方面的思想类似,如果两个物品被很多用户同时喜欢,那么这两个物品就很有可能属于同一个类。 隐含语义分析技术允许我们指定最终有多少...原创 2018-05-30 15:44:42 · 9699 阅读 · 1 评论 -
GBDT
推荐GBDT树的深度:6;(横向比较:DecisionTree/RandomForest需要把树的深度调到15或更高) 以下摘自知乎上的一个问答(详见参考文献8),问题和回复都很好的阐述了这个参数设置的数学原理。 【问】xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度? 用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了。但是用DecisionT...转载 2018-06-04 11:43:40 · 2386 阅读 · 0 评论 -
推荐系统8—利用时间上下文信息
本节首先介绍各种不同的时间效应,然后研究如何将这些时间效应建模到推荐系统的模型中,最后通过实际数据集对比不同模型的效果。1. 时间效应 时间信息对用户兴趣的影响表现在以下几个方面:用户兴趣是变化的;物品也是有生命周期的;季节效应。在给定时间信息后,推荐系统从一个静态系统变成了一个时变的系统,而用户行为数据也变成了时间序列。包含时间信息的用户行为数据集由一系列三元组构成...原创 2018-05-30 15:46:20 · 4193 阅读 · 2 评论 -
Adaboost
AdaBoost原理详解详见https://www.cnblogs.com/ScorpioLu/p/8295990.html代码实战之AdaBoost详见https://www.cnblogs.com/ScorpioLu/p/8296561.html转载 2018-06-06 10:06:48 · 149 阅读 · 0 评论