摸鱼大数据——用户画像——如何给用户“画像”

困了就倒头睡

于 2024-07-22 07:15:00 发布

阅读量550

点赞数 14

文章标签：大数据

本文链接：https://blog.csdn.net/weixin_65694308/article/details/140453474

版权

2、如何给用户“画像”

2.1 什么是标签体系

标签: 是某一种用户特征的符号表示

标签体系: 把用户分到多少类别里面去, 这些类是什么, 彼此之间有什么关系, 就构成了标签体系

标签解决的问题: 解决描述(或命名)问题以及解决数据之间的关联

2.2.1 标签的分类

用户画像标签一般分为两大类: 基础属性标签和行为属性标签

基础属性标签:

 例如:
 用户基本信息:  性别、年龄、上网场景、所在地等
 
 用户情况:  学历、婚恋情况、兴趣等
 
 用户行为: 付费用户、消费能力、移动定向(设备价格、操作系统、联网方式、移动运营商、移动媒体分类)等

行为属性标签:

 例如:
 个人喜好: 资源分类标签、喜好标签、风格标签、收听时间等
 
 收听行为: 主动播放、听完、跳过、单曲循环、分享、收藏、拉黑

当然还有另一种说法: 静态标签和动态标签

 静态:  不变的属性  如 性别 出生日期 出生地
 动态:  变化的属性  如 爱好 职业 婚否等

由于基于一个目标的画像，其标签是在动态扩展的，所以其标签体系也没有统一的模板，在大分类上，与自身的业务特征有很大的关联，在整体思路上可以从横纵两个维度展开思考：横向是产品内数据和产品外数据，纵向是线上数据和线下数据。而正中间则是永恒不变的“人物基础属性”。

2.2.2 标签的级别

分级有二层含义: 一是指标从最底层涵盖的层级二是指标的运算层级

指标桶运算层级角度分为三层: 事实标签、模型标签、预测标签
- 事实标签(基础标签)/规则匹配类: 是通过对于原始数据库的数据进行统计分析而来的, 如用户投诉次数，是基于用户一段时间内实际投诉的行为做的统计
- 模型标签(统计标签): 是以事实标签为基础, 通过构建事实标签与业务问题之间的模型, 进行模型分析得到的. 如: 结合用户实际投诉次数、用户购买品类、用户支付的金额等, 进行用户投诉倾向类型的识别, 方便客服分类处理
- 预测标签(挖掘标签): 是在模型的基础上做预测, 如: 针对投诉倾向类型结构的变化, 预测平台舆情分险指数

2.2.3 标签命名&赋值

注意：根据实际业务场景标签分级和命名方式是不同的。

2.2.4 标签属性

标签属性可以理解为针对标签进行再标注, 这一环节的工作主要目的是帮助内部理解标签赋值的来源, 进而理解指标的含义。

固有属性: 用户生而有之或者事实存在的。比如：性别、年龄、是否生育等。
推导属性: 由其他属性推导而来的属性, 比如星座，我们可以通过用户的生日推导，比如用户的品类偏好，则可以通过日常购买来推导。
行为属性: 产品内外实际发生的行为被记录后形成的赋值，比如用户的登陆时间，页面停留时长等。
态度属性: 用户自我表达的态度和意愿。比如说我们通过一份问卷向用户询问一些问题，并形成标签，如询问用户：是否愿意结婚，是否喜欢某个品牌等。当然在大数据的需求背景下，利用问卷收集用户标签的方法效率显得过低，更多的是利用产品中相关的模块做了用户态度信息收集。
测试属性: 测试属性是指来自用户的态度表达，但并不是用户直接表达的内容，而是通过分析用户的表达，结构化处理后，得出的测试结论。比如，用户填答了一系列的态度问卷，推导出用户的价值观类型等。

 特别注意:
     一种标签的属性可以是多重的, 比如: 个人星座这个标签, 既是固有属性, 也是推导属性
     即使构建了用户画像标签体系, 但也不代表完成了用户画像, 因为需要对标签赋值, 但有些标签根据无法获得或者无法赋值
     标签无法赋值的原因: 数据无法采集(如敏感数据) 数据库无法打通 建模失败 等等...

2.2.5 标签体系结构

1: 原始输入层
主要指用户的历史数据信息，如会员信息、消费信息、网络行为信息。经过数据的清洗，从而达到用户标签体系的事实层。
2: 事实层
事实层是用户信息的准确描述层，其最重要的特点是，可以从用户身上得到确定与肯定的验证。如用户的人口属性、性别、年龄、籍贯、会员信息等。
3: 模型预测层
通过利用统计建模，数据挖掘、机器学习的思想，对事实层的数据进行分析利用，从而得到描述用户更为深刻的信息。如通过建模分析，可以对用户的性别偏好进行预测，从而能对没有收集到性别数据的新用户进行预测。还可以通过建模与数据挖掘，使用聚类、关联思想，发现人群的聚集特征。
4: 营销模型预测
利用模型预测层结果，对不同用户群体，相同需求的客户，通过打标签，建立营销模型，从而分析用户的活跃度、忠诚度、流失度、影响力等可以用来进行营销的数据。
5: 业务层
业务层可以是展现层。它是业务逻辑的直接体现，如图中所表示的，有车一族、有房一族等。

2.2.6 标签体系结构分类

一般来说，设计一个标签体系有3种思路，分别是：1）结构化标签体系；2）半结构化标签体系；3）非结构化标签体系。

结构化标签体系(最多)

     简单地说，就是标签组织成比较规整的树或森林，有明确的层级划分和父子关系。结构化标签体系看起来整洁，又比较好解释，在面向品牌广告井喷时比较好用。性别、年龄这类人口属性标签，最典型的结构化体系

半结构化标签体系(少有)

     在用于效果广告时，标签设计的灵活性大大提高了。标签体系是不是规整，就不那么重要了，只要有效果就行。在这种思路下，用户标签往往是在行业上呈现出一定的并列体系，而各行业内的标签设计则以“逮住老鼠就是好猫”为最高指导原则，切不可拘泥于形式。

非结构化标签体系(少有)

     非结构化，就是各个标签就事论事，各自反应各自的用户兴趣，彼此之间并无层级关系，也很难组织成规整的树状结构。非结构化标签的典型例子，是搜索广告里用的关键词。

2.2.7 用户画像标签层级的建模方法

用户画像的核心是标签的建立，用户画像标签建立的各个阶段使用的模型和算法如下图所示。

原始数据层: 对原始数据，我们主要使用文本挖掘的算法进行分析如常见的TF-IDF、TopicModel主题模型、LDA 等算法，主要是对原始数据的预处理和清洗，对用户数据的匹配和标识。
事实标签层: 通过文本挖掘的方法，我们从数据中尽可能多的提取事实数据信息，如人口属性信息，用户行为信息，消费信息等。其主要使用的算法是分类和聚类。分类主要用于预测新用户，信息不全的用户的信息，对用户进行预测分类。聚类主要用于分析挖掘出具有相同特征的群体信息，进行受众细分，市场细分。对于文本的特征数据，其主要使用相似度计算，如余弦夹角，欧式距离等。
模型标签层：使用机器学习的方法，结合推荐算法。模型标签层完成对用户的标签建模与用户标识。其主要可以采用的算法有回归，决策树，支持向量机等。通过建模分析，我们可以进一步挖掘出用户的群体特征和个性权重特征，从而完善用户的价值衡量，服务满意度衡量等。
预测层：也是标签体系中的营销模型预测层。这一层级利用预测算法，如机器学习中的监督学习，计量经济学中的回归预测，数学中的线性规划等方法。实习对用户的流失预测，忠实度预测，兴趣程度预测等等，从而实现精准营销，个性化和定制化服务。

2.2 如何进行打标签

例如有如下标签信息:

标签ID	标签名称	标签级别	标签关系(PID)
1	性别	4	0
2	男	5	1
3	女	5	1
4	学历	4	0
5	专科	5	4
6	本科	5	4
7	硕士	5	4

打标签:

用户 ID	用户标签
10001	2, 5
10002	3, 6
10003	2, 6
10004	3, 7
10005	2, 7
10006	2, 6

标签命名方式:

2.3 用户画像基本步骤与验证

根据具体业务规则确定用户画像方向后，开展用户画像分析，总体来说，一个用户画像流程包括以下几步：

1-用户画像数据来源
2-用户画像的标签体系构建
3-用户画像的标签计算
4-用户画像的标签调度
5-用户画像标签的管理

细化说明:

用户画像数据来源:
- 静态数据: 画像的数据主要来自数仓

动态数据: 用户行为日志

用户画像的标签体系构建

用户画像的标签计算

用户画像的标签调度

用户画像标签的管理

用户画像何如验证？

可以通过上游推荐系统和标签本身逻辑可靠性和完整性衡量

困了就倒头睡

关注

14
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
摸鱼大数据——用户画像——如何给用户“画像”

标签: 是某一种用户特征的符号表示标签体系: 把用户分到多少类别里面去, 这些类是什么, 彼此之间有什么关系, 就构成了标签体系标签解决的问题: 解决描述(或命名)问题以及解决数据之间的关联。
复制链接

扫一扫