推荐系统-基于模型协同过滤理论基础与业务实践

最新推荐文章于 2020-09-18 22:46:28 发布

深漠大侠

最新推荐文章于 2020-09-18 22:46:28 发布

阅读量159

点赞数

分类专栏：智能推荐文章标签：智能推荐

本文链接：https://blog.csdn.net/weixin_43614188/article/details/89609534

版权

本文深入探讨Spark Mllib库在推荐系统中的应用，详细讲解了Spark MLlib的基本数据类型、统计量实现、特征抽取、转换与选择。重点在于介绍了ALS（交替最小二乘法）算法，包括其理论基础、参数设置、实战应用以及与LFM的区别。通过实例展示了如何处理行为数据，构建评分模型，并进行预测，最后对ALS的优化和相关推荐算法进行了概述。

摘要由CSDN通过智能技术生成

推荐系统-基于模型协同过滤理论基础与业务实践

1.SparkMllib库框架详解

Spark机器学习库
- 五个组件
  - ML Algratham算法
  - Pipelines管道
  - Featureszation
  - Persistence
  - Utilitiesl
- Sparkml和Sparkmllib
  - ml基于DatafrmaeAPI
  - mllib基于rdd的API

2.SparkMllib基本数据类型

localvector本地向量
- 创建方式上
  - dense稠密性向量—会存储0值和非0值
  - sparse稀疏性向量—仅可以存储非0值元素
    - seq()结构数据
    - 元素个数，下标，元素的值

Lablepoint标签向量

通过指定Vectors给定dense或sparse等向量
从mllib.regression.LabeledPoint中获取labelpoint通过该方法给特征进行标签赋值

Spark读取libsvm格式数据

鸢尾花-----花瓣的长度和宽度、花萼的长度和宽度
鸢尾花几种类别—三种类别—setosa、versicolor、vernica

1 1:-0.555556 4:-0.916667 
1 1:-0.666667 2:-0.166667 3:-0.864407 4:-0.916667 
1 1:-0.777778 3:-0.898305 4:-0.916667 
1 1:-0.833333 2:-0.0833334 3:-0.830508 4:-0.916667 
1 1:-0.611111 2:0.333333 3:-0.864407 4:-0.916667 
1 1:-0.388889 2:0.583333 3:-0.762712 4:-0.75 
1 1:-0.833333 2:0.166667 3:-0.864407 4:-0.833333 
1 1:-0.611111 2:0.166667 3:-0.830508 4:-0.916667 
1 1:-0.944444 2:-0.25 3:-0.864407 4:-0.916667 
1 1:-0.666667 2:-0.0833334 3:-0.830508 4:-1 
1 1:-0.388889 2:0.416667 3:-0.830508 4:-0.916667 
1 1:-0.722222 2:0.166667 3:-0.79661 4:-0.916667 
1 1:-0.722222 2:-0.166667 3:-0.864407 4:-1 
1 1:-1 2:-0.166667 3:-0.966102 4:-1 
1 1:-0.166667 2:0.666667 3:-0.932203 4:-0.916667 
1 1:-0.222222 2:1 3: