构建用户画像-标签体系

用户画像是目前在技术公司广泛使用的技术,是根据客户人口统计信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。常常用在精准营销、圈定人群、发送短信消息、APP弹窗等等,用户画像的准确性往往会直接影响到运营的效果和获客成本。

用户画像另一个不太为普通人所知的用处是风控,建设用户画像是互联网金融领域风险控制的基础和关键,直接影响到公司的营收。

这本书整体介绍了用户画像的实现方案和技术,配合有具体的真实案例,关键点是有实际的数据库表设计和代码,读完后帮我快速建立了关于用户画像的整体技术框架和实现方案,同时也启发了我很多对于新领域用户画像建设优化的思路。

个人评价

通读全书,主要讲了以下几部分:用户画像基础、数据指标体系、标签数据存储、标签数据开发、开发性能调优、作业流程调度、用户画像产品化、用户画像应用。这八块内容并不是完全均等,标签开发占了大头,相互间也并不是完全独立,或多或少会有点重叠。

内容上技术、产品、运营三块都讲了。产品运营不懂,不做评价。技术方面,提到了用户画像能用的一下技术,主要是生成数据的一些,比如 ES、Hive、Spark、MySQL。

在实战层面:案例挺多的,过程翔实,可以作为随时翻阅的参考书,值得看看。不过,也有些小小的缺点「手动狗头保命」:有些内容被翻来覆去的说,比如 Hive 的存储,调优部分也是可有可无,隔靴搔痒。其实完全可以以一个大案例把几个模块串起来讲,比如里面的案例按照目标群体进行拉新和转化,就可以串起来。

读书笔记

1. 用户画像助力数据走出数据仓库

基础设施建设和应用

从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、个性化推荐与精准营销等应用方向。

用户画像赋能业务发展

而用户画像可以帮助大数据“走出”数据仓库,针对用户进行个性化推荐、精准营销、个性化服务等多样化服务,是大数据落地应用的一个重要方向。

数据应用体系划分如下图所示:

图来自《用户画像:方法论与工程化解决方案》

2. 标签类型

用户画像建模,其实就是对用户“打标签”,标签类型主要分为3种:统计类标签,规则类标签,机器学习挖掘类标签。

2.1 统计类标签

是最基础和常见的类型,例如,对于某个用户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数 等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。

2.2 规则类标签

该类标签基于用户行为及确定的规则产生。例如,对平台上 “消费活跃” 用户这一口径的定义为 “近30天交易次数≥2” 。

在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定

2.3 机器学习挖掘类标签

该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。

例如,性别判断:根据一个用户的行为习惯判断该用户是男性还是女性、购物偏好判断。根据一个用户的消费习惯判断其对某商品的偏好程度,该类标签需要通过算法挖掘产生。

2.4 上述三类标签的比较

统计类标签和规则类标签在开发中占有较大的比例。

在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,在开发中占有较大比例。

机器学习挖掘类标签多用于预测场景,如判断用户性别、用户购买商品偏好、用户流失意向等。一般地,机器学习标签开发周期较长,开发成本较高,因此其开发所占比例较小。

3. 用户画像数仓架构

如下所示的用户画像数仓架构图:

图来自《用户画像:方法论与工程化解决方案》

3.1 数据源

主要包含业务数据、日志数据、埋点数据,经过ETL加工到数仓对应的ODS、DWD、ADS层。

3.2 用户画像建模环节

如上图中间一层,基于数仓中的ODS、DWD和ADS层中与用户相关的数据,经过二次建模加工,经过ETL过程将用户标签计算结果写入 Hive,作为大本营。

对于这些计算好的用户标签数据,根据不同的应用场景即可同步到其他数据库,例如MySQL(提供BI报表数据、多维透视分析数据、圈人服务数据)、HBase(用户产品线上个性化推荐、线上数据实时调用)、ES等。

  • Hive:存储用户标签计算结果、用户人群计算结果、用户特征库计算结果

  • MySQL:存储标签元数据,监控相关数据,导出到业务系统的数据

  • HBase:存储线上接口实时调用类数据

  • Elasticserch:支持海量数据的实时查询分析,用于存储用户人群计算、用户群透视分析所需的用户标签数据(由于用户人群计算、用户群透视分析的条件转化成的SQL语句多条件嵌套较为复杂,使用 Impala 执行也需花费大量时间)

用户标签数据在 Hive 中加工完成后,部分标签通过 Sqoop 同步到 MySQL数据库,提供用于BI报表展示的数据、多维透视分析数据、圈人服务数据;另一部分标签同步到HBase数据库用于产品的线上个性化推荐。

4. 用户画像整体方案需要考虑的几个模块

下面对部分模块简单说明

4.1 数据指标体系

根据业务线梳理:用户属性、用户行为、用户消费和风险控制等维度的指标体系。

4.2 标签数据存储

标签数据可根据应用场景的不同,存储在Hive、MySQL、HBase、ES等。

4.3 标签数据开发

三类标签(统计类、规则类、挖掘类)的开发,打通画像数据和各业务数据之间的通路,提供接口服务等开发内容。

4.4 作业调度工具

4.5 用户画像产品化

可以理解为用户画像对用户提供的一个可视化UI,提供一个与用户画像系统进行交互的工具。让用户数据更好的服务于业务方,以产品化的形态应用在业务上。

产品化的模块主要包括标签视图、用户标签查询、用户分群、透视分析等。

4.6 用户画像应用

应用场景包括:用户特征分析、Push 消息的精准推送、客服针对用户的不同话术、针对高净值用户的极速退货退款等 VIP 服务应用。

5. 用户画像建设项目流程

总体流程图如下:

下面针对上述模块进行详细的分析解读

5.1 画像的需求分析和目标解读

明确用户画像服务的对象:运营人员和数据分析人员。不同服务对象他们对画像有不同的侧重点。

  • 运营人员

例如运营人员需要分析用户的特征、定位用户行为偏好,做商品或内容的个性化推荐,以提高点击转化率,因此其关注的用户画像侧重点落在了用户个人行为偏好上。

  • 数据分析人员

他们需要分析用户特征,做好用户流失预警工作,还可根据用户的消费偏好做更有针对性的精准营销。

5.2 任务分解和需求调研

我们已经知道画像将要服务的对象和应用场景,接下来要结合产品现有业务体系和“数据字典”规约实体和标签之间的关联关系,明确分析维度。

例如我已从不同的角度进行业务建模:用户属性画像/用户行为画像/用户偏好画像/用户群体偏好画像。

5.3 需求场景讨论与明确

明确需求场景和标签维度、标签类型:数据运行人员和需求方的沟通结果是,输出产品用户画像需求文档,在文档中明确画像应用场景、最终开发出的标签内容和应用方式。

5.4 应用场景和数据口径确认

数据运行人员结合业务与数据仓库中已有的相关表,明确与业务场景相关的数据口径。运营方输出产品用户画像开发文档(文档中需明确应用场景、标签开发的模型、涉及的数据库和表,以及应用实施流程)。

5.5 特征选取和模型数据落表

根据需求场景进行业务建模,开发HQL逻辑,将逻辑生成的数据写入临时表,并抽取数据校验是否符合业务场景需求。

5.6 线下模型数据验收和测试

数仓团队的开发人员将相关数落表后,设定定时调度任务,定期增量更新数据,数据运行人员要验收表中数据是否在合理范围内,发现问题反馈给数仓人员调整HQL代码逻辑和行为权重值。

5.7 线上模型发布和效果追踪

将开发好的HQL部署上线,上线后持续追踪标签应用效果。调整优化模型即相关权重配置。

6. 每阶段的产出物

打通数据服务层:用户画像最终的价值出发点是业务方应用画像数据进行用户分析,多渠道触达运营用户,分析ROI,提升用户活跃度和应收。

  • 0
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值