推荐算法项目实战
文章平均质量分 76
本栏为spark推荐算法项目实战
<一蓑烟雨任平生>
没成功之前才华等于狗屎,只有成功了才证明你的一切!
展开
-
ES集群规划
目录(1)ES内存设置(2)单节点分片数量(3)主节点设置(1)ES内存设置因为ES是非常消耗内存的,所以规划的第一步就是考虑index的JVM内存的问题。ES中 1TB的数据大概占据2GB的内存,一般情况我们都会按照这个来进行规划。如果要更加精确的计算的话,需要我们自己去ES中查看查看内存大小。假设JVM内存配置31G, ES的内存最好不要超过32G,JVM的新生代你可以配置10G,老年区可以配置21G,index的内存最好不要超过10G,换算成索引的数据量就是5TB。如果有100T的数据,那么每个原创 2021-03-01 20:54:46 · 1135 阅读 · 0 评论 -
推荐系统之基于关联规则推荐
目录(1)基于关联规则推荐原理详解(1.1)支持度(Support)(1.2)置信度(Confidence)(1.3)提高度(2)关联规则推荐算法-Apriori原理图例数据详解(3)关联规则推荐算法-FP-Growth图例数据详解(4)关联规则推荐算法-FP-Growth详解与Spark代码开发(1)基于关联规则推荐原理详解关联规则是反映一个事物与其他事物之间的相互依存性和关联性,常用于实体商店或在线电商的推荐系统:通过对顾客的购买记录数据库进行关联规则挖掘,最终目的是发现顾客群体的购买习惯的内在共性原创 2021-03-01 20:45:44 · 5929 阅读 · 2 评论 -
协同过滤推荐之基于模型协同过滤
目录(1)基于模型协同过滤的核心思想(2)矩阵分解详解(3)矩阵分解图例及数据演化过程(4)SVD算法之交替最小二乘(ALS)详解(5)基于SVD算法之交替最小二乘(ALS)完成推荐开发几种推荐系统图:(1)基于模型协同过滤的核心思想概述:基于模型的协同过滤推荐就是基于样本的用户喜好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测,计算推荐。基于模型的推荐算法,是与基于近邻的推荐算法相对的。基于近邻的推荐算法,主要是将所有的用户数据,读入内存,进行运算,当数据量特别大时,显然这种方法原创 2021-03-01 14:29:32 · 9000 阅读 · 0 评论 -
协同过滤推荐之基于近邻协同过滤(二)
目录(1)基于物品协同过滤的思想与原理(2)基于物品协同过滤的相似度计算(3)基于物品协同过滤的评分预测策略(4)相似度算法详解(4.1)相似度本质详解(4.2)欧氏距离、余弦相似度、皮尔逊相关度详解(4.2.1)欧氏距离(4.2.2)余弦相似度(4.2.3)调整余弦相似度(4.2.4)皮尔逊相关度(4.2.5)杰卡德相似度(5)基于物品相似度开发(5.1)余弦相似度计算(5.2)调整余弦相似度计算(5.3)皮尔逊相关度计算(5.3.1)使用皮尔逊相关度公式二API计算(非共同评分)(5.3.2)使用皮尔逊原创 2021-02-24 23:21:13 · 887 阅读 · 0 评论 -
协同过滤推荐之基于近邻协同过滤(一)
目录(1)基于用户协同过滤思想(2)用户协同过滤—用户相似度计算(3)用户协同过滤—预测评分(4)用户协同过滤—考虑问题及策略(5)用户协同过滤—相似度计算开发(5.1)余弦相似度计算(5.2)调整余弦相似度计算(6)用户协同过滤—基于Spark完成用户推荐开发(6.1)基于余弦相似度算法推荐电影(6.2)基于调整余弦相似度算法推荐电影前言:基于用户画像的个性化推荐是有缺陷的,因为它不会做用户兴趣的升级。无法发现新知识,推荐的候选集永远圈定在你的兴趣标签维度内,做不到认知的升级,而实际上认知是会进行升级原创 2021-02-22 10:00:27 · 1497 阅读 · 0 评论 -
推荐系统之基于用户画像推荐
目录(1)用户画像理解(2)基于用户画像推荐架构图(3)基于用户画像推荐数据流程图(4)用户画像标签提取过程(4.1)数据源(4.2)用户兴趣标签提取(4.2.1)用户标签【tags】偏好数据(4.2.2)用户类目【genres】偏好数据(4.2.3)用户年份【years】偏好数据(4.2.4)属性合并(4.3)电影数据处理(4.3.1)电影Tags数据(4.3.2)电影genres数据(4.3.3)属性合并(4.3.4)电影画像与用户画像的匹配计算(1)用户画像理解推荐系统当然是在用户画像标签产生的基原创 2021-02-18 14:30:10 · 8633 阅读 · 16 评论 -
推荐系统之基于内容推荐
(1)基于内容推荐原理(2)基于内容推荐优势与应用场景(3)基于内容推荐架构图详解(4)基于内容推荐TF-IDF详解(5)原创 2021-02-16 21:09:00 · 8482 阅读 · 5 评论 -
推荐系统概述
什么是推荐系统推荐系统可以把哪些最终会在用户(User)和物品(ltem)之间产生的连接提前找出来。例如:社交产品一脸书从已经建立社交关系的用户身上去推测你还可能对哪些人感兴趣,本质上就是提前把哪些可能的用户连接找出来,然后再按照用户分别呈现在每一个人面前。例如:今日头条只有当用户不断点进源源不断的内容物品中,每一次点击,就是一个连接,每一次阅读也是一个连接,不同层次不同重要性的连接在推荐系统的帮助下不断建立,所主要依据的就是那些已经存在的连接,即:用户过去都点击阅读了哪些内容。例如:电商平台原创 2021-02-12 22:54:18 · 251 阅读 · 1 评论 -
基于ES之业务数据分组求和TopN开发
需求:把作家所有作品的总点击数加起来求和再进行排序的一个实现1.先通过SQL语句计算出作家排行select sum(a.clickcount) countTotal,a.author,group_concat(a.name) novel_namesfrom db_novel.novel_test a group by author order by countTotal desc ;2.把SQL语句转换成ES语句语句转换地址:http://www.ischoolbar.com/EsParser原创 2021-02-10 13:05:32 · 737 阅读 · 0 评论 -
基于ES之业务数据分类聚合开发
先在novel索引上对【category】字段分类聚合,通过在kibana上的测试,出现了一些问题,此问题的原因是类型不是keyword,对需要聚合类的需要设置Type为keyword。因为keyword类型在聚合的时候是作为一个整体的,而text类型会把字分开。对以上问题的实时方案:我们重新创建一个名为【 novel_category_count 】索引,并对其mapping 的category字段类型修改为keyword。原novel的mapping:重新创建一个mapping将categ原创 2021-02-10 12:44:46 · 342 阅读 · 0 评论 -
基于ES之详情页开发
接着前面对项目的分词索引开发,下面开始做详情页的开发。主表novel表,详情页的数据表为novel_detail表novel_detail表格式如下:mysql> desc novel_detail;+--------------+--------------+------+-----+---------+----------------+| Field | Type | Null | Key | Default | Extra |+-----原创 2021-02-08 22:10:51 · 238 阅读 · 0 评论 -
基于ES之分词搜索详解
目录(1)IK分词插件安装与验证(2)IK自定义词库扩展配置(3)创建ES索引和Mapping(1)IK分词插件安装与验证分词器地址:https://github.com/medcl/elasticsearch-analysis-ik1.IK analyzer插件包的下载地址:https://elasticsearch.cn/download/2.插件安装过程进入到/opt/modules/elasticsearch/plugins目录下创建ik目录mkdir ik将下载好的插件解压到原创 2021-02-05 18:40:53 · 8661 阅读 · 3 评论 -
数据准备与数据迁移
目录一、项目数据准备二、基于LogStash数据迁移至ES三、基于MR数据迁移至HBase一、项目数据准备将备份的数据导入到mysql中create database db_novel;mysql -u root -p199911 </opt/shell/novel.sql db_novel数据迁移架构二、基于LogStash数据迁移至ESLogStash数据迁移:启动LogStash数据迁移,需要编写数据迁移脚本,模版如下:cd logstash-6.7.2bin/logs原创 2021-02-04 15:10:15 · 368 阅读 · 1 评论