日萌社
人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)
3.1 用户画像计算更新
学习目标
业务流程图:
3.1.1 为什么要进行用户画像
要做精准推送同样可以使用多种推荐算法,例如:基于用户协同推荐、基于内容协同的推荐等其他的推荐方式,但是以上方式多是基于相似进行推荐。而构建用户画像,不仅可以满足根据分析用户进行推荐,更可以运用在全APP所有功能上。
建立用户画像确实是一个一劳多得的事情,不仅可以运用于精准推送、精准推荐、精准营销,更可以作为网站的用户属性分析,用户行为分析,商业化转化分析等。同时网站共用一套用户画像,可以对用户有统一的认知。
- 1.精准营销:精准直邮、短信、App消息推送、个性化广告等
- 2.用户研究:指导产品优化,甚至做到产品功能的私人定制等
- 3.个性服务:个性化推荐、个性化搜索等
- 4.业务决策:排名统计、地域分析、行业趋势、竞品分析等。
- ...
3.1.2 如何构建用户画像
用户画像,即:用户标签。
数据源分析
用户数据划分为动态信息数据、静态信息数据两大类。
- 静态数据:用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面数据
- 动态数据:用户不断变化的行为信息
用户画像的生产
用户画像的生产过程,大致可以分为以下几步:
- 用户建模,指确定提取的用户标签和需要使用到的数据源。
- 用户标签数据收集,通过数据收集工具,如Flume或自己写的脚本程序,把需要使用的数据统一存放到Hadoop集群。
- 用户标签数据清理,数据清理的过程通常位于Hadoop集群,也有可能与数据收集同时进行,这一步的主要工作,是把收集到各种来源、杂乱无章的数据进行字段提取,得到关注的目标标签。
- 用户标签数据合并,把用户通过各种数据源提取的特征进行合并对于合并后的结果数据,分发到精准营销、个性化推荐、CRM等各个平台,提供数据支持。
用户画像构建层次
- 用户基础数据:用户基础信息、用户的APP/web行为信息
- 用户画像存储:Hbase
- 画像业务特征提取:构建好的画像结果,可以根据不同部门或者不同业务进行特征提取,作用到不同的营销手段或者个性化推荐
3.1.2 头条推荐系统用户画像计算设计
用户画像的第一层主要是原始数据库,此数据库主要囊括后续分析所需要的所有原始数据。也是通过大量数据的分析和处理,后面能提炼成用户的画像得以运用。
- 头条画像原始数据
如数据库查询结果
hive> select * from user_action limit 1;
OK
2019-03-05 10:19:40 0 {"action":"exposure","userId":"2","articleId":"[16000, 44371, 16421, 16181, 17454]","algorithmCombine":"C2"} 2019-03-05
对于这样的数据,我们希望处理成一个完成统计基本表格,如下
- 用户画像标签建立
用户标签化:这个过程就是需要研究用户对内容的喜好程度,用户喜欢的内容即当作用户喜好的标签。
- 在用户行为记录表中,我们所记下用户的行为在此时就发挥出重要的作用了。用户的浏览(时长/频率)、点击、分享/收藏/关注、其他商业化或关键信息均不同程度的代表的用户对这个内容的喜好程度。
- 用户对内容的行为:点赞、不感兴趣、点击、浏览。对用户的反馈行为如点赞赋予权值1,对于用户的浏览行为,则可使用点击/浏览作为权值。
- 在推荐系统里面,通常
其实用户标签并不等同于用户画像,只是用户标签是用户画像直观的呈现,并且是比较好且常用的运用方式。
构建用户标签库其实比较简单,因为我们在上述采集用户行为过程中,已经把用户喜好的内容采集下来了,所以基础标签并可以直接运用内容的标签。也就是通过用户喜欢的内容给用户贴标签。
用户画像
文章画像标签给用户贴上相应标签,我们对于用户,具体业务是频道推荐
- 为了达到更加细致的画像建立,我们给每个频道每个用户都建立标签
- 比如:python频道:装饰器、django….,html频道:node.js、vue...
- 用户画像是包括其标签以及标签值(权重)
- 用户的兴趣是时间衰减的,即离当前时间越远的兴趣比重越低。时间衰减函数使用1/[log(t)+1], t为事件发生的时间距离当前时间的大小。
频道1 | 频道2 | 频道3 | 频道4 | ... | 性别 | 年龄 | |
---|---|---|---|---|---|---|---|
用户1 | 标签weights,标签,标签…. | 标签weights,标签,标签…. | 标签weights,标签,标签…. | 标签weights,标签,标签…. | ... | 1 | 10 |
用户2 | 标签weights,标签,标签…. | 标签weights,标签,标签…. | 标签weights,标签,标签…. | 标签weights,标签,标签…. | ... | 1 | 20 |
用户3 | 标签weights,标签,标签…. | 标签weights,标签,标签…. | 标签weights,标签,标签…. | 标签weights,标签,标签…. | ... | 0 | 30 |