用户画像标签数据开发之标签权重计算

目录

0. 相关文章链接

1. 什么是标签权重计算

2. TF-IDF词空间向量

3. 时间衰减系数

4. 标签权重配置


注:此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习使用

0. 相关文章链接

用户画像文章汇总

1. 什么是标签权重计算

        用户在平台上的不同行为具体到用户标签层面有着不同的行为权 重。在本案例场景中,用户购买某商品的行为权重要比用户添加到购 物车、收藏某商品、浏览某商品的行为权重依次要高。具体到某个产 品层面,需要用户画像建模人员与运营人员密切沟通,结合业务场景 给不同的行为类型定权重(基本思想是复杂程度越高的行为价值越 大),同时需要考虑标签本身在全体标签类型中的权重属性。下面介 绍主观权重打分结合TF-IDF算法的综合权重计算方法。

2. TF-IDF词空间向量

        TF-IDF是一种统计方法,用以评估一个字或词相对于一个文件集 或一个语料库中的其他词语的重要程度。字词的重要性随着它在文件 集中出现的次数的增加成正比增加,同时随着它在语料库中出现的频 率成反比下降。在本章介绍的案例中,对于每个用户来说,其身上同 一个标签出现的次数越多,该标签对于这个用户来说越重要,该标签 在全部用户的所有标签产生的标签集中出现的次数越多,该标签的重 要性越低。

        使用TF-IDF方法来表示标签(Tag,T)和用户(User,P)之间的 关系:其中w(P,T)表示一个标签T被用于标记某个用户P的次数, TF(P,T)表示这个标记次数在所有标记用户P的标签中所占的比例, TF计算公式如下:

         在一定程度上,这个比例反映了用户P被认为与标签T有关联的度 量。这个度量越大说明在更多情况下用户P与标签T之间的关系越紧密。

        IDF(P,T)表示标签T的稀缺程度,即这个标签在全体用户的所 有标签中出现的概率。对一个标签T来说,如果它本身出现的概率就比 较小,却被用来标记用户P,这会使得用户P与标签T之间的关系更加紧密。IDF的计算公式如下:

这样,用户P和标签T之间的关系系数为TF(P,T)和IDF(P,T) 的乘积,计算公式为:

rel(P,T)=TF(P,T) * IDF(P,T)

        举一个简单的例子:如图4-28所示,A〜C代表用户,a〜e代表标 签,数字代表A〜C用户身上该标签的个数。以用户A为例,A身上有a、 b、d、e 4类标签共4+3+0+5+3=15个,a标签对A用户的TF值为4/15。全 体用户共有a标签4+5+0=9个,全体用户的全部标签为 4+5+3+6+5+5+6+3+4=41个,a标签的IDF值为41/9°A用户身上的a标签 TFXIDF值为4/15*41/9=1.21。

        至此,通过TF-IDF算法求出了用户与标签之间的权重关系。但是 此时计算用户标签的权重还没有结束,当前的标签权重是未考虑业务 场景,仅考虑用户与标签之间的关系求出来的,这显然是不够的。

3. 时间衰减系数

        当用户数据达到足够的密集程度后,用户身上打的标签对应的属 性会表现出较高的稳定性,这种稳定性与用户长期行为形成的个人真 实特征相匹配。但是也存在灵活变化的适应性较弱的问题。

        例如,某用户主要从事软件开发,因此其在某图书类电商网站上 的搜索、收藏、购买等行为主要集中在与编程相关的内容上。然而, 如果该用户近期内转为运营类岗位,则其近期的浏览与搜索就会突变 为与运营相关的内容。但是,将用户画像的属性描述从编程转为运营 并不会由此立刻实现,仍需要长时间的用户行为的积累,直至在运营 下积累了比编程更多的子分类标签。但是在转换期间,系统仍对用户 推送编程相关书籍,这显然脱离了用户的真实关注内容。

        为解决这个问题,我们引入了时间衰减这个参数,根据发生时间 的先后为用户行为数据分配权重。时间衰减是指随着时间的推移,用 户的历史行为和当前行为的相关性不断减弱,在建立与时间衰减相关 的函数时,我们可套用牛顿冷却定律数学模型。牛顿冷却定律描述的 场景是:一个较热的物体在一个温度比其温度低的环境下,这个较热 的物体的温度是要降低的,而周围物体的温度要上升,最后物体的温 度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度 F(t)随着时间t的增长而呈现指数型衰减,其温度衰减公式为:

        其中,x为衰减常数,可通过回归计算得出。例如:指定45分钟后 物体温度为初始温度的0.5倍,即0.5=1Xexp(-X45),求得 =0.1556。

        在用户画像的应用中,用户的某些行为会随时间衰减,而某些行 为不会随时间衰减。一般来说,用户操作的复杂程度越高,其行为随 时间衰减的影响性越小,我们可视该类行为不随时间衰减(如下单、 购买行为)。对于随时间衰减的行为,在计算行为权重时需考虑时间 因素,衰减方式可套用牛顿冷却定律;对于不随时间衰减的行为则不 必考虑时间的影响,如下表所示。

行为名称

是否受时间影响

行为权重值计算

用户搜索图书

1

行为标签权重X时间哀减函数

用户搜索图书对应作者

1

行为标签权重X时间衰减函数

用户搜索作者

1

行为标签权重X时间衰减函数

用户支付成功图书

0

行为标签权重

用户收藏图书

0

行为标签权重

用户支付成功图书对应作者

1

行为标签权重X时间衰减函数

用户收藏图书对应作者

1

行为标签权重X时间衰减函数

4. 标签权重配置

        用户标签的权重最终还是需要进一步结合标签所处的业务场景、 距离当前时间、用户行为产生该标签的行为次数等因素,最终得到用 户标签权重的综合打分公式:

用户标签权重 = 行为类型权重 X 时间衰减 X 用户行为次数 X TF-IDF计算标签权重

公式中各参数的释义如下:

  • 行为类型权重:用户浏览、搜索、收藏、下单、购买等不同行 为对用户而言有着不同的重要性。一般而言,操作复杂度越高的行为 权重越大。该权重值一般由运营人员或数据分析人员主观给出。
  • 时间衰减:用户某些行为受时间影响不断减弱,行为时间距现 在越远,该行为对用户当前行为来说意义越小。
  • 行为次数:用户标签权重按天统计,用户某天与该标签产生的 行为次数越多,该标签对用户的影响越大。
  • TF-IDF计算标签权重:由每个标签对用户的重要性与该标签在 全体标签中的重要性的乘积得出每个标签的客观权重值。

结合标签权重的计算公式,可以对用户特征库(dw.cookie_feature_event_append)的行为数据计算标签权重,筛 选出与用户行为相关性最大的标签。


注:再次声明,此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习使用

注:其他相关文章链接由此进 -> 用户画像文章汇总


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

电光闪烁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值