推荐系统-基于模型协同过滤理论基础与业务实践
1.SparkMllib库框架详解
- Spark机器学习库
- 五个组件
- ML Algratham算法
- Pipelines管道
- Featureszation
- Persistence
- Utilitiesl
- Sparkml和Sparkmllib
- ml基于DatafrmaeAPI
- mllib基于rdd的API
- 五个组件
2.SparkMllib基本数据类型
- localvector本地向量
- 创建方式上
- dense稠密性向量—会存储0值和非0值
- sparse稀疏性向量—仅可以存储非0值元素
- seq()结构数据
- 元素个数,下标,元素的值
- 创建方式上
- Lablepoint标签向量
- 通过指定Vectors给定dense或sparse等向量
- 从mllib.regression.LabeledPoint中获取labelpoint通过该方法给特征进行标签赋值
- Spark读取libsvm格式数据
- 鸢尾花-----花瓣的长度和宽度、花萼的长度和宽度
- 鸢尾花几种类别—三种类别—setosa、versicolor、vernica
-
1 1:-0.555556 4:-0.916667 1 1:-0.666667 2:-0.166667 3:-0.864407 4:-0.916667 1 1:-0.777778 3:-0.898305 4:-0.916667 1 1:-0.833333 2:-0.0833334 3:-0.830508 4:-0.916667 1 1:-0.611111 2:0.333333 3:-0.864407 4:-0.916667 1 1:-0.388889 2:0.583333 3:-0.762712 4:-0.75 1 1:-0.833333 2:0.166667 3:-0.864407 4:-0.833333 1 1:-0.611111 2:0.166667 3:-0.830508 4:-0.916667 1 1:-0.944444 2:-0.25 3:-0.864407 4:-0.916667 1 1:-0.666667 2:-0.0833334 3:-0.830508 4:-1 1 1:-0.388889 2:0.416667 3:-0.830508 4:-0.916667 1 1:-0.722222 2:0.166667 3:-0.79661 4:-0.916667 1 1:-0.722222 2:-0.166667 3:-0.864407 4:-1 1 1:-1 2:-0.166667 3:-0.966102 4:-1 1 1:-0.166667 2:0.666667 3:-0.932203 4:-0.916667 1 1:-0.222222 2:1 3: