项目:音乐推荐
文章平均质量分 85
silent狼
喜欢安静的思考...
展开
-
抓获数据集以及存储
缘由作为推荐系统的最开始,便是原始数据的问题。这个数据说起来倒也非常广泛,如果是推荐图书的,那么就是图书的信息的数据集,电影的就是电影的数据集等等。像我们音乐的,第一步就是获得歌曲、歌手等等数据集。然而这些我现在都没有,按理我一个研究推荐系统的,不应该考虑怎么去获得数据集的问题,无奈项目刚起步。我们虽然不缺音乐数据集(歌曲、专辑、歌手等等),但是我们缺用户数据集。也就说,由于我们要做的是一个新原创 2014-01-26 19:41:20 · 1211 阅读 · 0 评论 -
离线计算,验证推荐的准确性(失败)
目的算好了歌曲的相似度,我们就可以为用户产生推荐列表了。但是,我现在想试试产生的这个推荐列表到底有多准呢?具体思路如下收藏歌曲数大于或等于五十的用户,我会从这位用户已经收藏的歌曲里面随机删掉10%的歌曲,再用剩下的90%歌曲产生推荐列表。推荐列表只产生10首歌曲,比对这10首歌曲与删掉的10%的歌曲的重复度。比如,收藏数为50的用户,删掉10%,还剩45首,利用这45首产生一个推荐原创 2014-02-06 00:39:54 · 1287 阅读 · 0 评论 -
离线计算:推荐准确度和第一首歌曲命中的保存以及图像展示
我已经做了什么到目前为止,我已经使用了两种计算相似度的方式(皮尔逊和Jaccard系数)计算了歌曲相似度:利用协同过滤算法的皮尔逊系数:计算歌曲相似度计算歌曲相似度:Jaccard系数结果也存储在了相应的表:simmusicsimmusicjaccard而且能够有一种策略产生推荐列表,也设计了一种验证推荐列表的准确度的方式(离线计算,验证推荐的准确性(失败)原创 2014-02-20 19:47:59 · 1168 阅读 · 0 评论 -
计算歌曲相似度:Jaccard系数
什么是Jaccard系数其公式如下:可以看出,其含义是集合A、B中相同的个数,除以A与B交集个数。可以看出,Jaccard系统主要关注的是元素是的个体是否相同,而不能用数值具体表示其差异。从这个意义上讲,我认为适合我的音乐,音乐推荐中计算相似度的过程。因为,我确定两个用户是否相似就是判断这两个用户是否收藏了相同的歌曲。举例:A=[shirt,shoes,pants,socks]原创 2014-02-15 16:02:38 · 8490 阅读 · 3 评论 -
利用协同过滤算法的皮尔逊系数:计算歌曲相似度
想要什么数据已经足够多了,我现在想法就是单独维护一张歌曲相似度的表,每首歌曲有10首相似度歌曲,并且有相似度的程度,介于0到1之间。首先来明确我有什么,我有3张表。user表:用户1.4万左右music表:10万首歌曲记录(只针对中文歌曲)favorites表:888153条,收藏记录。表内也就是一个用户ID和一个歌曲ID难道我会计算这10万首歌曲的相似度?没有必要吧?原创 2014-02-05 14:05:46 · 4471 阅读 · 2 评论 -
离线计算方案改进:产生推荐列表时的歌曲相似度计算应累加,而非替换
缘由上一次离线计算失败了,简单说:我产生的推荐列表里没有我删除了原本用户收藏的歌曲。这是因为我单纯的以所有用户收藏的歌曲相似度来排序,只取前10个/20个/30个。考虑的太不全面了。详情请见博客:离线计算,验证推荐的准确性(失败)。改进的方案我可以结合相似用户和相似歌。对于一个用户首先找到相似用户,再把相似用户里面没有被目标用户收藏的歌选出来,作为集合A。再拿到这个用户收藏的歌原创 2014-02-08 01:58:53 · 1216 阅读 · 0 评论 -
推荐系统:Evaluating_collaborative_filtering_recommender_systems
论文名EvaluatingCollaborative Filtering Recommender Systems JONATHAN L. HERLOCKERSchool of Electrical Engineering & Computer Science, Oregon State University and JOSEPH A. KONSTAN, LOREN G. TER翻译 2013-12-10 19:19:24 · 1463 阅读 · 1 评论 -
项目相关:网站设计的要点
缘由导师后来又追加任务,要求我来完成音乐网站的设计。我想了一想,这一部分主要分为两个大块,设计与实现。实现的问题由于我暂时不太熟悉javaWeb那一套,目前还在继续学习之中。看了本书:JavaWeb项目开发案例精粹和两篇论文。大概知道所谓“设计”该写些什么了。设计中需要完成的内容下面依次说一些我在一份设计文档中该写的内容,并且逐一分析我该写什么。具体写的内容我暂时保留写在一份w原创 2014-04-16 21:45:01 · 955 阅读 · 0 评论 -
NoSQL以及其应用场景
缘由今天主要想了想在项目(音乐网站)中如何使用我们的有没有必要使用Nosql,突然发现原来只是粗浅的认为:就要用NoSQL,因为NoSQL听起来是高新技术,然后我就要用。而不考虑适合不适合。今天上午看了本noSql数据库入门,整本书扫了很久,虽然没有得出最终的结论,不过还是收获良多。下面还是自己总结一下:NoSQLNoSQL是Not Only SQL的缩写,含义为:原创 2014-04-17 19:27:35 · 1595 阅读 · 0 评论