推荐系统-基于模型协同过滤理论基础与业务实践

本文深入探讨Spark Mllib库在推荐系统中的应用,详细讲解了Spark MLlib的基本数据类型、统计量实现、特征抽取、转换与选择。重点在于介绍了ALS(交替最小二乘法)算法,包括其理论基础、参数设置、实战应用以及与LFM的区别。通过实例展示了如何处理行为数据,构建评分模型,并进行预测,最后对ALS的优化和相关推荐算法进行了概述。
摘要由CSDN通过智能技术生成

推荐系统-基于模型协同过滤理论基础与业务实践

1.SparkMllib库框架详解

  • Spark机器学习库
    • 五个组件
      • ML Algratham算法
      • Pipelines管道
      • Featureszation
      • Persistence
      • Utilitiesl
    • Sparkml和Sparkmllib
      • ml基于DatafrmaeAPI
      • mllib基于rdd的API

2.SparkMllib基本数据类型

  • localvector本地向量
    • 创建方式上
      • dense稠密性向量—会存储0值和非0值
      • sparse稀疏性向量—仅可以存储非0值元素
        • seq()结构数据
        • 元素个数,下标,元素的值
  • Lablepoint标签向量
    • 通过指定Vectors给定dense或sparse等向量
    • 从mllib.regression.LabeledPoint中获取labelpoint通过该方法给特征进行标签赋值
    • Spark读取libsvm格式数据
      • 鸢尾花-----花瓣的长度和宽度、花萼的长度和宽度
      • 鸢尾花几种类别—三种类别—setosa、versicolor、vernica
      • 1 1:-0.555556 4:-0.916667 
        1 1:-0.666667 2:-0.166667 3:-0.864407 4:-0.916667 
        1 1:-0.777778 3:-0.898305 4:-0.916667 
        1 1:-0.833333 2:-0.0833334 3:-0.830508 4:-0.916667 
        1 1:-0.611111 2:0.333333 3:-0.864407 4:-0.916667 
        1 1:-0.388889 2:0.583333 3:-0.762712 4:-0.75 
        1 1:-0.833333 2:0.166667 3:-0.864407 4:-0.833333 
        1 1:-0.611111 2:0.166667 3:-0.830508 4:-0.916667 
        1 1:-0.944444 2:-0.25 3:-0.864407 4:-0.916667 
        1 1:-0.666667 2:-0.0833334 3:-0.830508 4:-1 
        1 1:-0.388889 2:0.416667 3:-0.830508 4:-0.916667 
        1 1:-0.722222 2:0.166667 3:-0.79661 4:-0.916667 
        1 1:-0.722222 2:-0.166667 3:-0.864407 4:-1 
        1 1:-1 2:-0.166667 3:-0.966102 4:-1 
        1 1:-0.166667 2:0.666667 3:-0.932203 4:-0.916667 
        1 1:-0.222222 2:1 3:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值