自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

生命不息,学习不止

专注于推荐,生于推荐,死于只知道推荐

  • 博客(16)
  • 资源 (2)
  • 收藏
  • 关注

原创 csdn博客推荐系统实战-6关键词提取-TF-IDF,TEXTRANK

前面几篇写了相似度计算和话题模型,都是怎么找到相似的文章。2篇文章用各种方法向量化,然后余弦计算相似度,或者同在一个话题的2篇文章,把一整篇文章切成很多很多的词,有的模型或算法还要尽量在词多的情况下计算才准确。人类有归纳总结的能力,看了一篇英超曼城对曼联比赛的报道,会总结几个出几个关键词,英超 曼联 曼城 得比,看了关键词就能知道这篇文章大概的内容,如果机器也能做到,那该多好啊!!!能,当然能,就...

2018-04-22 17:30:36 2522

原创 csdn博客推荐系统实战-5文本聚类-话题模型LDA

话题模型topic model是自然语言处理领域里面热门的一个技术,可以用来做很多的事情,例如相似度比较,关键词提取,分类,还有就是具体产品业务上的事了,总之可以干很多的事情。今天不会讲LDA模型的很多细节和原理,没有满屏的数学公式,只讲一讲LDA模型是个什么东西,简单的原理,用什么技术实现的LDA,以及LDA能做什么开发和LDA在实现中的一些问题。什么是主题对于一篇新闻报道,看到里面讲了昨天NB...

2018-04-20 16:04:13 4192 3

原创 csdn博客推荐系统实战-4文本聚类-潜在语义索引LSI

前面说了TF-IDF模型,是基于关键词的,一篇文章,用关键词来描述,但是这还远远不够,这篇文章主要是讲什么的?篮球?足球?乒乓球?TF-IDF没办法告诉我,但这是很重要的一个信息,这可以过滤绝大部分不相关的内容。主题模型能解决这个问题!主题模型主题模型可以说是一种聚类算法,非监督的,目的是找到文本主题的概率分布,就是对文字中隐含主题的一种建模方法。比如从“人民的名义”和“达康书记”这两个词我们很容...

2018-04-16 21:03:08 869

原创 csdn博客推荐系统实战-3文本相似度-minhash和Jaccard距离

上一篇说了simhash,本质是降维,计算量会大幅降低。simhash可以用来去复,也可以用来计算相似度,今天要说的minhash和simhash很相似,可用于去重和计算相似度,主要也是降维的路思。就是simhash和汉明距离配套一样,和minhash配套的是Jaccard距离。minhash是LSH(局部敏感哈希)的一种,快速检索大量数据。特征矩阵特征矩阵是推荐系统必须要做的事,不管是用户-用户...

2018-04-15 17:10:22 3516

原创 csdn博客推荐系统实战-2文本相似度-simhash和海明距离

上一篇我讲到了TF-IDF(term frequency–inverse document frequency)模型,再配合余弦定理来计算2篇文本的相似度,但是这样也有一个缺点,如果文本很长,那文本的特征向量会特别的多,比如5W个词,20W个词,那用余弦来计算的话,计算量就会很大,如果语料库文本量又很大,500W,5000W,那两两比较的话,计算量是一个天文数字,时间成本太高了,这种方法肯定不行。...

2018-04-13 18:10:53 2912

原创 csdn博客推荐系统实战-1文本相似度-TF-IDF模型和余弦相似度

github:https://github.com/worry1613/csdn-blog-recommend数据集下载地址  https://pan.baidu.com/s/1qzJDmpzAMe1vmtvuCXSfIw数值型数据相似度计算可以用那些传统的算法,余弦,欧氏,Jaccard,曼哈顿,传统算法总共11种。这些算法都是处理数值型数据的,可现在是文本比较,没有数字,怎么用这样算法呢?那就...

2018-04-11 14:25:55 3968 3

原创 推荐系统实战-csdn博客推荐-写在最初

基于文字内容的推荐引擎,csdn博文推荐引擎,这是我2016年就有开发这个的想法。后来因为众筹业务不顺,换了公司,一直没有大块的时间去做,利用业余时间在做开发,一直是断断续续。直到2017年过了年,才有一些时间来真正做这个推荐的开发。数据来源那肯定是csdn博客网站,2016年写爬虫的时候csdn博客还是老版居多,到了2017年新版和老版的数量就差不多了,到2018年的时候,依然是新版和老版并存,...

2018-04-08 14:48:32 1809

原创 推荐系统实战-出租公寓项目9-写在最后

mysql数据库文件保存位置百度云:https://pan.baidu.com/s/1HZOrsAZiej2TSGpQgTYEXw  密码:ana8到现在为止,公寓出租推荐系统 离线推荐功能算是完成了。不过,这只是一个开始,因为重要的是要上线测试,看看是否真如我计算的那样,达到了我们的目的。还有线上实时推荐功能没有完成,这个我以后再说。就这样完了吗?当然不是!!!就算实时推荐功能由其它同事来完成,...

2018-04-02 18:01:23 822

原创 推荐系统实战-出租公寓项目8-推荐系统评估

前面说了那么多,推荐系统的冷启动,协同过滤算法,聚类算法,关联规则,混合算法,那现在问题出来了,我用哪种算法来写我自己的公寓出租推荐系统呢?一是凭经验,二,所有算法都测试一遍,看哪个效果好!!!!效果好的标准是什么??就是马上要说的推荐系统的评估,指标。如何判断推荐系统的好坏好的推荐系统设计,能够让推荐系统本身收集到高质量的用户反馈,不断完善推荐的质量,增加用户和网站的交互,提高网站的收入。因此在...

2018-04-02 17:40:53 1212

原创 推荐系统实战-出租公寓项目7-混合算法

前几篇介绍过了几咱推荐算法,相惟性推荐,协同过滤,聚类,关联规则,还有很多算法我没有提到,基于模型的方法,基于数学模型通过计算来推荐,矩阵推荐等等。这些年发展过来,推荐算法,没有1000也有800种了。经过大量的实践,人们发现似乎没有任何一个方法可以独领风骚、包打天下,每种推荐方法都有其局限性。基于物品的协同过滤(Item-based Collaborative Filtering)是推荐系统中知...

2018-04-02 15:25:10 1563

原创 推荐系统实战-出租公寓项目6-关联规则

代码托管在这里, https://github.com/worry1613/gongyu-recommend什么是关联规则所谓数据挖掘就是以某种方式分析源数据,从中发现一些潜在的有用的信息,即数据挖掘又可以称作知识发现。而机器学习算法则是这种“某种方式”,关联规则作为十大经典机器学习算法之一,因此搞懂关联规则(虽然目前使用的不多)自然有着很重要的意义。顾名思义,关联规则就是发现数据背后存在的某种规...

2018-03-31 14:39:20 1231

原创 推荐系统实战-出租公寓项目5-基于聚类分析推荐

代码在这里 https://github.com/worry1613/gongyu-recommend聚类通俗的讲,即所谓“物以类聚,人以群分”。聚类 (Clustering) 是一个数据挖掘的经典问题,它的目的是将数据分为多个簇 (Cluster),在同一个簇中的对象之间有较高的相似度,而不同簇的对象差别较大。为什么要用聚类算法?简单,非常简单!!!!聚类是非监督版的‘分类’,把相近的数据划分成...

2018-03-27 00:14:33 1068

原创 推荐系统实战-出租公寓项目4-协同过滤算法推荐

https://github.com/worry1613/gongyu-recommend代码已经托管到github上,有任何的疑问可以直接看代码,或者直接给我发邮件worry1613@163.com,看到我会及时回复。协同过滤算法协同过滤是推荐系统中最常用到的算法,最基础的算法。 在协同过滤的基础上,衍生出了很多高级的算法,新的算法。协同过滤分为2种,基于用户的协同过滤,基于物品的协同过滤。基于...

2018-03-25 15:18:32 900

原创 推荐系统实战-出租公寓项目3-相似性推荐

什么是相似性?比较两个事物的相似性。一般通过计算事物的特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。比如两种水果,将从颜色,大小,维生素含量等特征进行比较相似性。具体到 公寓信息上,就是比较所有的数据特征之间的差距。相似性推荐用在什么地方?太多了,电影相关影片相关职位招聘信息的推荐 那如何计算事物之间的相似性呢?计算的方法有很多,1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距...

2018-03-20 15:31:32 577

原创 推荐系统实战-出租公寓项目2-冷启动

接上一篇,http://blog.csdn.net/worryabout/article/details/79580253github:https://github.com/worry1613/gongyu-recommend上一篇我们把数据都处理完了,OK。现在要面临的一个问题是 ‘出租公寓项目’是一个全新的项目,没有用户知道,没有用户浏览记录,没有用户兴趣偏好记录,只有公寓的数据记录。这时间就...

2018-03-19 23:45:41 461

原创 推荐系统实战-出租公寓项目1-数据特征工程

本系列作品尽量不涉及到高深的数学公式,一切以实际工作为主,以实际工作中遇到的问题及解决问题的思路为主。所有代码均已提交到github上,供读者参考。github:https://github.com/worry1613/gongyu-recommend出租公寓项目是笔者2016年的项目,出租公寓的数据全部来自58同城品牌公寓馆,爬虫代码我就不发上来了,我手下的小孩写的,事先沟通不细,所以原始数据格...

2018-03-16 15:19:49 806

debugging application

debugging application,很好的一本书,英文版

2007-09-20

TUXEDO快速入门中文版

TUXEDO快速入门中文版,很好的初学者教程

2007-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除