【用户画像】用户偏好购物模型BP

行坐亦念

已于 2024-06-03 18:27:24 修改

阅读量1.6k

点赞数 24

文章标签： matplotlib

于 2024-06-03 18:24:54 首次发布

本文链接：https://blog.csdn.net/weixin_63260646/article/details/139416137

版权

一、前言

用户购物偏好模型BP（Buyer Preferences Model）旨在通过对用户购物行为的深入分析和建模，以量化用户对不同商品或服务的偏好程度。该模型对于电商平台、零售商以及其他涉及消费者决策的商业实体来说，具有重要的应用价值。

二、推荐系统

概述

推荐系统是一种利用电子商务网站、社交媒体平台等向用户提供个性化商品、内容或服务建议的系统。它通过分析用户的行为、兴趣、历史记录等信息，帮助用户快速找到符合其需求的物品，提高用户体验和满意度。

推荐引擎，作为网站不可或缺的后台智能核心，高度依赖用户行为日志。这些日志不仅是用户兴趣与偏好的宝贵记录，更是网站实现个性化服务的关键数据。通过深度分析用户的行为日志，推荐引擎能够精确捕捉每个用户的独特需求，并据此为用户呈现定制化的页面和信息。这种个性化的服务不仅极大地提升了用户的浏览体验，还显著提高了网站的点击率和转化率。

三、标签模型开发

评分数据

在这里我们使用用户对每个物品的点击次数来作为评分的标准：

想要获取点击次数，首先我们得获取物品的编号，也就是ItemId，而这个编号我们从url中可以获得：

对于这些url我们使用正则匹配解析，具体代码如下：

import scala.util.matching.Regex

object RegexUrlTest {
	
	def main(args: Array[String]): Unit = {
		// 访问url
		val locUrl = "http://www.eshop.com/product/10781.html?ebi=ref-i5-main-1-7"
		
		// 正则表达式
		val regex: Regex = "^.+\\/product\\/(\\d+)\\.html.+$".r
		
		// 正则匹配
		val optionMatch: Option[Regex.Match] = regex.findFirstMatchIn(locUrl)
		// 获取匹配的值
		val productId = optionMatch match {
			case None => println("没有匹配成功"); null
			case Some(matchValue) => matchValue.group(1)
		}
		println(s"productId = $productId")
	}
	
}

运行程序输出结果：

新建标签

新建业务(4级)标签品牌偏好标签，相关字段信息如下:

标签名称:用户购物偏好
标签分类:电商-某商城-行为属性
更新周期:1天
业务含义:用户购物偏好
(商品/品牌偏好)
标签规则!
inType=hbase
zkHosts=bigdata-cdh01.itcast.cn
zkPort=2181
hbaseTable=tbl_tag_logs
family=detai1
selectFieldNames=global_user_id,loc_url

程序入口:
cn.itcast.tags.models.rmd.BpModel
算法名称:
ALS
算法引擎:
tags-model_2.11.jar
模型参数:
--driver-memory 512m --executor-memory 512m --num-executors 1 --
executor-cores 1

在标签管理平台创建【用户推荐】3级标签及【用户购物偏好】4级标签，用于方便管理模型：

模型开发

开发模型标准流程：继承基类 AbstractModel，实现标签计算方法 doTag

具体在：用户画像——使用模板方法（Template Pattern）构建标签抽象类AbstractModel

这篇文章中有讲到。

算法模型开发步骤：

1. 自定义函数，从url中提取出访问商品id

		val url_to_product: UserDefinedFunction = udf(
			(url: String) => {
				// 正则表达式
				val regex: Regex = "^.+\\/product\\/(\\d+)\\.html.+$".r
				// 正则匹配
				val optionMatch: Option[Regex.Match] = regex.findFirstMatchIn(url)
				// 获取匹配的值
				val productId = optionMatch match {
					case Some(matchValue) => matchValue.group(1)
					case None => null
				}
				// 返回productId
				productId
			}
		)

2. 从url中计算商品id

	val ratingsDF: Dataset[Row] = businessDF
			.filter($"loc_url".isNotNull) // 获取loc_url不为null
			.select(
				$"global_user_id".as("userId"), //
				url_to_product($"loc_url").as("productId") //
			)
			.filter($"productId".isNotNull) // 过滤不为空的数据
			// 统计每个用户点击各个商品的次数
			.groupBy($"userId", $"productId")
			.count()
			// 数据类型转换
			.select(
				$"userId".cast(DoubleType), //
				$"productId".cast(DoubleType), //
				$"count".as("rating").cast(DoubleType) //
			)

3. 使用ALS算法训练模型（评分为隐式评分）

val alsModel: ALSModel = new ALS()
			// 设置属性
			.setUserCol("userId")
			.setItemCol("productId")
			.setRatingCol("rating")
    		.setPredictionCol("prediction")
			// 设置算法参数
			.setImplicitPrefs(true) // 隐式评分
			.setRank(10) // 矩阵因子，rank秩的值
			.setMaxIter(10) // 最大迭代次数
			.setColdStartStrategy("drop") // 冷启动
			.setAlpha(1.0)
			.setRegParam(1.0)
			// 应用数据集，训练模型
			.fit(ratingsDF)
		ratingsDF.unpersist()

4. 模型评估

		import org.apache.spark.ml.evaluation.RegressionEvaluator
		val evaluator: RegressionEvaluator = new RegressionEvaluator()
			.setLabelCol("rating")
			.setPredictionCol("prediction")
			.setMetricName("rmse")
		val rmse: Double = evaluator.evaluate(alsModel.transform(ratingsDF))
		//  rmse = 1.0300179222180903
		println(s"rmse = $rmse")

5.模型推荐

		// 5.1 给用户推荐商品: Top5
		val rmdItemsDF: DataFrame = alsModel.recommendForAllUsers(5)

		
		// 5.2. 给物品推荐用户
		val rmdUsersDF: DataFrame = alsModel.recommendForAllItems(5)