项目立项
为了更好更高效的管理、利用公司各条业务线产生的以及所需要的数据以更好地支撑公司主营业务以及其他各条业务线的运营
项目核心模块
数据采集
数据预处理
数仓ETL系统
任务调度系统(azkaban|oozie)
元数据、数据治理系统(atlas)
数据可视化(javaee -> springboot+echarts)
项目整体架构
首先考虑数据来源
行为日志
业务数据
广告竞价平台数据
其次考虑技术选型, 业务建模
数据采集: 日志用flume, 业务数据用sqoop
数据存储: hdfs
数据预处理: spark
数据仓库基础设施: hive sparksql
任务调度: crontab/ azkaban/ oozie
用户画像(刻画人物特征(比如征信、分类、层级vip))
用户画像一点也不神秘,它是根据用户在互联网留下的种种数据,主动或被动地收集,最后加工成一系列的标签。
用户画像可以理解为业务层面的数据仓库
刻画用户的各维度特征(个性化), 特征用标签及权重来表达
标签体系层级递进关系: 原始数据-> 事实标签 -> 模型标签 -> 策略标签(人工)
画像用途
精准营销: 这是运营最熟悉的玩法,从粗放式到精细化,将用户群体切割成更细的粒度(更个性化),辅以短信、推送、邮件、活动等手段,驱以关怀、挽回、激励等策略
数据应用:用户画像是很多数据产品的基础,诸如耳熟能详的推荐系统、广告投放系统。操作过各大广告投放系统的同学想必都清楚,广告投放基于一系列人口统计相关的标签,性别、年龄、学历、兴趣偏好、手机等等。
用户分析:(数据分析)虽然和Persona不一样,profile也是了解用户的必要补充。产品早期,PM们通过用户调研和访谈的形式了解用户。在产品用户量扩大后,调研的效用降低,这时候会辅以用户画像配合研究。新增的用户有什么特征,核心用户的属性是否变化等等。
数据分析:这个就不用多提了,用户画像可以理解为业务层面的数据仓库,各类标签是多维分析的天然要素。数据查询平台会和这些数据打通。
深入理解用户画像
用户流失概率标签,流失概率 (朴素贝叶斯)(优于) 距今消费天数 (该问题在低频场景更凸显,旅游APP,半年没有活跃也是正常的)(优于) 流失标签(事后结论分析)。
流失概率达到60%(阈值选择)报警 , 执行挽回活动
不是我有了用户画像,便能驱动和提高业务。而是为了驱动和提高业务,才需要用户画像。
用户画像的标签一般通过两种形式获得:
基于已有数据或者一定规则统计加工,流失标签和距今天数皆是。
另外一种是基于已有的数据计算概率模型,会用到机器学习和数据挖掘。
推而广之,推荐系统也好,广告系统也罢,它们有更复杂的维度、标签、特征,本质也是找出用户最近想不想买车,用户最近想不想旅游。把最合适的信息在最恰当时机推给用户,获取最大的利益。
建立正确的用户画像
推出了APP专卖各式各样的沙拉,现在需要建立用户画像指导运营。
公司现阶段在业务层面,更关注营销和销售:如何将沙拉卖得更好。
- 运营流程
- 用户层级设计
潜在、新客、老客的划分
RFM(近期购买行为、购买的总体频率、花了多少钱)模型是衡量客户价值和客户创利能力 然后分VIP等级 - 人口统计属性
用户地址
不同属性的人群
基本事实标签 社会属性 消费属 - 用户流失概率(模型标签)
- 行为标签(模型标签)
- 用户层级设计
用户画像的标签架构示例
具体的画像得看产品形态:
像金融领域,还会有风险画像,包括征信、违约、洗钱、还款能力、保险黑名单等。
电商领域会有商品的类目偏好、品类偏好、品牌偏好,不一而足。
下单时间偏好: 可以将连续的时间离散化, 按不同时间段来统计
- 从数据流向和加工看,用户画像包含上下级递进关系。
以上文的流失系数举例,它依赖于用户早期的历史行为。而用户早期的历史行为,即10天内的消费金额、消费次数、登录次数等,本身也是一个标签,它们是通过原始的明细数据获得。
- 好的用户画像系统,既是数据生态体系,也是业务和运营的生态体系,它是一门复杂的交叉领域。