用户活跃度标签建模

根据用户近3个月的登录、发帖和更新贴行为,利用聚类算法评估活跃度。采用Kmeans,结合信息熵和冷却定律处理时间权重,选取最佳K值,评估指标包括轮廓系数和类别活跃度占比。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

应用场景

期望根据客户近3个月的登录行为和发帖更新贴行为,评估客户的活跃度,将活跃度分为多个等级,以根据不同的活跃等级开展不同的营销活动。

基本思路

1、采用聚类算法,特征值取最近3个月每周(一周取7天)登录次数,每周发帖次数,每周更新贴次数,按周展开列,共12周*3=36个特征值,对每个特征值按照时间周期做降权处理。

借鉴牛顿温度冷却定律:

本期温度=上期温度 * exp(-(冷却系数)*间隔的周期数)

特征值考虑时间周期作降权处理。假设,第12周的一次登录,在今日的权重变为0.05(暂定),则,冷却系数 = - log(0.05) / 12 约等于 0.24。假设一个客户在12周内的登录次数依次为:1,2,3,4,5,6,7,8,9,10,11,12,那么计算这个客户的登录次数总得分为:
S = 12 e − 0.24 ∗ 0 + 11 e − 0.24 ∗ 1 + 10 e − 0.24 ∗ 2 + 9 e − 0.24 ∗ 3 + 8 e − 0.24 ∗ 4 + 7 e − 0.24 ∗ 5 + 6 e − 0.24 ∗ 6 + 5 e − 0.24 ∗ 7 + 4 e − 0.24 ∗ 8 + 3 e − 0.24 ∗ 9 + 2 e − 0.24 ∗ 10 + 1 e − 0.24 ∗ 11 \begin{array}{l}{S=12 e^{-0.24 * 0}+11 e^{-0.24 * 1}+10 e^{-0.24 * 2}+9 e^{-0.24 * 3}+8 e^{-0.24 * 4}+7 e^{-0.24 * 5}+6 e^{-0.24 * 6}+} \\ {5 e^{-0.24 * 7}+4 e^{-0.24 * 8}+3 e^{-0.24 * 9}+2 e^{-0.24 * 10}+1 e^{-0.24 * 11}}\end{array} S=12e0.240+11e0.241+10e0.242+9e0.243+8e0.244+7e0.245+6e0.246+5e0.247+4e0.248+3e0.249+2e0.2410+1e0.2411
约等于39.93 ,而不降权的方式sum(1,2…11,12)=78。

考虑客户在登录,更新贴和发帖的权重不同,分别取权重为登录:0.2,更新帖:0.3,发帖:0.5。

2、使用Kmeans算法,进行聚类,K值根据手肘法得到最优值,然后结合业务需求确定。

3、聚类为K类,然后计算每类的中心点的在登录,更新帖和发帖的降权总得分,依次对应业务含义的类别。

4、数据验证:

(1)利用轮廓系数,评估K类的聚类效果。

(2)分析K类的数据占比,是否和预期相符。

(3)K类数据,每类取部分

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值