推荐系统
文章平均质量分 87
张之海
硕士毕业于东北大学,现就职于北京某猫头鹰公司,大数据工程师职位。
展开
-
《推荐系统实践》项亮 书中程序实现
笔者在学习《推荐系统实践》一书时,对书中程序进行的实践,仅作为学习参考,如有可以改进之处,也还请各位朋友给予指教,非常感谢。在笔者的博客中,为书中的程序实现写了多篇文章,本文为那些文章的编写了一篇目录,方便读者查询。第二章 利用用户行为数据2.4基于邻域的算法2.4.1 基于用户的协同过滤算法在查询本文中,关于原书某页的算法实现时,可以直接Crtl+F,按格式"PXX"输入原书页码(例:...原创 2018-10-17 12:33:06 · 2460 阅读 · 0 评论 -
《推荐系统实践》 程序实现 ——2.5 隐语义模型
2.5.1 基础算法P67 负样本采样过程程序实现##正样本:用户喜欢的物品; ##负样本:用户不感兴趣的物品。import randomitems = {'a':1,'b':1,'c':1} # 用户已经有过行为的物品的集合,即用户喜欢的物品列表,即正样本ret = dict() # 用来存储正样本和负样本,即用户喜欢的和不感兴趣的物品都将存储在这里for i in i...原创 2018-10-22 21:48:26 · 630 阅读 · 0 评论 -
《推荐系统实践》 程序实现 ——2.6 基于图的模型
PersonalRank算法在基于图的模型中,给用户A进行个性化推荐,实际是计算用户A对所有物品的感兴趣程度。在PersonalRank算法中,不区分用户和商品,所以计算用户A对所有物品的感兴趣程度,即计算除用户A外的所有节点B,C,a,b,c,d对用户A的重要度。原理如下,其中PR(v)表示重要度(物品结点的访问概率)。具体过程描述1:具体过程描述2:初始赋予 ,即对于A来说,...原创 2018-10-26 18:48:18 · 706 阅读 · 0 评论 -
三轴加速度传感器 角度值 转换原理
1 各方向初始重力分量如果芯片水平静置,X、Y方向的重力分量为0g,而Z轴方向的重力分量为g。如下图所示,X=0;Y=0;Z=g。图1 芯片水平静置2 各方向重力分量计算图2 各轴分别与水平线、重力加速度的夹角图3 重力加速度在各轴的分量step1:各边与水平方向有一些夹角,则其图像如图2所示:X轴方向的加速度大小为Ax,其与水平线的夹角为α1,与重力加速度的夹角α;Y轴方向的...转载 2018-11-03 21:27:51 · 16586 阅读 · 5 评论 -
《推荐系统实践》 程序实现 —— 4.3 基于标签的推荐系统
4.3 基于标签的推荐系统4.3.1 实验设置P105 计算物品i和j的余弦相似度:程序实现:#P105 物品i和j的余弦相似度计算import math#item_tags[i][b]是对物品i打标签b的次数def CosineSim(item_tags,i,j): ret = 0 #物品i和物品j的相似度 for b,wib in item_tags[i].items()...原创 2018-11-02 20:55:22 · 386 阅读 · 0 评论 -
TF-IDF算法
本文系转载自文章关键字提取算法TF-IDF-博客园这篇文章写得实在不错,将比较绕口的TF-IDF算法讲解的非常易于理解,故而只做标注,未作更改。在文本分类的学习过程中,在“如何衡量一个关键字在文章中的重要性”的问题上,遇到了困难。在网上找了很多资料,大多数都提到了这个算法,就是今天要讲的TF-IDF总起TF-IDF,理解起来相当简单,他实际上就是TF*IDF,两个计算值的乘积,用来衡量一个...转载 2018-11-02 21:32:08 · 550 阅读 · 0 评论 -
推荐系统算法总结
本文内容来自《推荐系统与深度学习》——黄昕 王本友 吕慧敏 杨敏 清华大学出版社 第四章推荐系统的算法中,应用最广泛的是基于内容的推荐和基于领域的推荐。基于邻域的算法又分为两大类:基于用户的协同过滤,基于物品的协同过滤。基于用户:找出与用户 兴趣 相似的其他用户。基于物品:找出与用户 之前喜欢的物品 相似的物品。1 基于内容提取特征(内容)提取待推荐物品的特征(也就是内容属性)...原创 2019-04-16 12:39:41 · 1091 阅读 · 0 评论 -
特征分解,奇异值分解(SVD) 和隐语义模型(LFM)
[摘要]特征分解——>奇异值分解(SVD)——>隐语义模型(LFM),三个算法在前者的基础上推导而成,按顺序先后出现。三者均用于矩阵降维。其中:特征分解可用于主成分分析。奇异值分解(SVD)和隐语义模型(LFM)可用于推荐系统中,将评分矩阵补全、降维。...原创 2019-04-17 10:40:48 · 2683 阅读 · 2 评论 -
《推荐系统实践》 程序实现 —— 2.4.1 基于用户的协同过滤算法
本文为笔者在学习《推荐系统实践》一书时,对书中程序进行的实践,仅作为学习参考,如有可以改进之处,也还请各位朋友给予指教,非常感谢。在查询本文中,关于原书某页的算法实现时,可以直接Crtl+F,输入原书页码查询。未添加的程序实现会在之后陆续补上。2.4 基于邻域的算法2.4.1 基于用户的协同过滤算法1.基础算法p45 利用余弦相似度计算用户集中两两用户的相似度p46 建立物品-用户的倒...原创 2018-10-09 12:28:10 · 1307 阅读 · 3 评论 -
《推荐系统实践》 程序实现 —— 1.3.2 评测指标
2. 预测准确度 2.1 评分预测 评分预测的预测准确度可以通过均方根误差(RMSE)和平均绝对误差(MAE)计算。那么RMSE和MAE的公式是怎么推导出来的呢?请看下面的解析:(1)我们对 某一用户对某一物品的评分值 进行预测,要求预测值与实际值的偏差,从字面意思上便可以表示为(也就只有这一种方式),预测值与真实值两者作差:原创 2018-10-18 16:41:00 · 635 阅读 · 0 评论 -
中心化和标准化
1 为什么会谈到中心化和标准化呢?因为在阅读《推荐系统》一书,学习“改进余弦相似度”和“Pearson”相关系数时,都谈到了减去均值(当然两者中用到的,是不同的均值)。这便是“中心化”,至于标准化,是在搜索中心化的内容附带学习的,以这种比较的方式拓展知识面,也是比较有效的。2 中心化和标准化是什么?—— 定义3 为什么要提出中心化和标准化的方法?4 中心化和标准化的实际应用有哪些?...原创 2018-09-03 20:55:01 · 9504 阅读 · 2 评论 -
Item-Based Collaborative Filtering Recommendation Algorithms - 2001年 - 被引用7190次
sfd原创 2018-07-11 20:01:30 · 1427 阅读 · 0 评论 -
《推荐系统实践》标注
本文为在阅读《推荐系统实践》过程中所做的标注与理解参考: 1. 过拟合 p42 大白话给你说清楚什么是过拟合、欠拟合以及对应措施 所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。打个比喻就是当我需要建立好一个模型之后,比如是识别一只狗狗的模型,我需要对这个模型进行训练。恰好,我训练样本中...原创 2018-08-10 17:54:05 · 334 阅读 · 0 评论 -
推荐系统中的相似度度量方法
本文将介绍推荐系统中用于度量相似度的几种方法,包括:余弦相似度,调整余弦相似度、欧氏距离。记录在此处,仅作为学习笔记。1 余弦相似度 [1]余弦距离,也称为余弦相似度,是用两个n维向量夹角的余弦值作为衡量两个个体间差异的大小的度量。(两向量的夹角越小,说明两个向量越相似)向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向...转载 2018-08-13 16:43:18 · 4535 阅读 · 0 评论 -
方差、标准差、均方根误差、平均绝对误差的总结
单纯介绍概念不易理解,所以应从实际应用出发介绍其区别。 四者的研究对象和研究目的不同。 概念: 1. 方差 定义: 公式: 2. 标准差(std —— Standard Deviation) 别名:均方差(mean square error)、标准偏差、实验标准差。 定义:标准差是观测值与其平均数偏差的平方和的平方根,即方差的算术平方根。 公式: 公式意义:所有数减去其...原创 2018-08-26 11:29:04 · 48691 阅读 · 3 评论 -
自由度(为什么样本方差自由度是n-1)
为什么样本方差自由度(分母)为n-1一 概念、条件及目的概念 要理解样本方差的自由度为什么是n-1,得先理解自由度的概念: 自由度,是指附加给独立的观测值的约束或限制的个数,即一组数据中可以自由取值的个数。成立条件 所谓自由取值,是指抽样时选取样本,也就是说:只有当以样本的统计量来估计总体的参数时才有自由度的概念,直接统计总体参数时是没有自由度概念的。...原创 2018-08-27 10:28:27 · 59090 阅读 · 1 评论 -
数学期望
定义 可以用两种方式给予解释: (1)离散概率 试验中每次可能的结果乘以其结果概率的总和。 (2)连续分布函数 如果X是在概率空间(Ω,P)中的随机变量,那么它的期望值E[X]的定义是: F-分布函数 并不是每一个随机变量都有期望值的,因为有的时候这个积分不存在。 (3)抽样 随机试验在同样的机会下重复多次,所有那些可能状态平均的结果。别名 数学中:数学期望值、数学期望、...原创 2018-08-27 10:46:04 · 2355 阅读 · 0 评论 -
协方差、相关系数(Pearson 相关系数)
概念:Pearson相关系数 (Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。[1] 注: 【定距变量】[2][3] 若想理解定距变量,需要与其他变量类型进行比对。 统计学依据数据的计量尺度将数据划分为四大类 ,即定距型数据、定序型数据、定类型数据和定比型数据。 1. 定距型数据是...原创 2018-08-30 10:41:16 · 67339 阅读 · 3 评论 -
贝叶斯网络
后验概率:在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。参考文献:后验概率_百度百科原创 2018-09-11 11:23:43 · 1000 阅读 · 0 评论 -
自然语言处理之word2vec
哈哈哈,看了一天终究是没看懂,先记录一下好的资料。[1] 图解Word2vec,读这一篇就够了[2] 一文详解NGram语言模型以及困惑度perplexity1 embedding及word embedding的含义 Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function,其中该函数是injective(就是我们所说的单射函数,每个Y只有...原创 2019-04-23 20:56:49 · 553 阅读 · 0 评论