用户画像标签数据开发之用户特征库开发

目录

0. 相关文章链接

1. 什么是用户特征库

2. 特征库规划

3. 数据开发

4. 其他特征库规划


注:此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习使用

0. 相关文章链接

用户画像文章汇总

1. 什么是用户特征库

        为进一步从多个维度丰富用户特征,挖掘用户的相关行为,除了 开发用户标签体系外,一般还会开发用户的特征库。一方面为个性化 推荐、精准营销、商业分析等应用提供中间层数据,另一方面也可以 削减不同算法在特征构建时的冗余加工。

        简单来说,用户特征库就是对用户每一次的不同行为(如浏览、 收藏、搜索、购买等)及该行为对应的标签(或商品品类)进行详细 的记录,以便从用户的行为特征中挖掘用户的偏好。与开发用户标签 相比,用户特征库可以对数据进行汇总统计,从多个维度分析用户特 征,而用户标签则“相对静态”地记录了用户当前的状态。

        例如,用户经常浏览或购买奶粉、尿不湿、婴儿车等商品,则她 可能是一个孩子的妈妈;用户经常浏览、收藏、点赞搞笑、段子类视 频,可用于挖掘用户的内容喜爱偏好;用户对女装、美甲等商品的浏 览、购买、收藏等行为数据,在用户性别分类的挖掘中时会很有效。 在用户画像建模的过程中,为了高效挖掘用户特征,需要进行用户特征库的规划和开发。

2. 特征库规划

        用户与商品相关行为的日志数据包含了用户对商品行为的明细。 下面通过一个用户特征库的构建案例进行说明。该用户行为特征库规划ER图如下图所示。 

根据应用需要,创建表dw.cookie_feature_event_append来构建 用户特征,表结构如下表所示。

字段名

中文名

类型

备注

cookie_id

cookie id

String

非空

tagid

标签id

String

非空

tagname

标签名称

Siring

非空

tag_type_id

标签类型

String

按业务线来划分标签

act_num

事件统计值

Bigint

行为次数

data_date

日期分区

String

非空

act name

事件名称

String

如点赞/打赏/加购/点击/收藏/浏览等行为

  • cookie_id:用户访问id。
  • goods_id:商品id,用户行为对应的商品。
  • goods_name:商品名称,用户行为对应的商品。
  • tag_type:标签类型,可以按商品归属的三级品类进行划分, 如游戏本、轻薄本、机械键盘等表示不同的3c品类。
  • event_value:用户当日行为次数统计值,如用户某日浏览某品 牌笔记本电脑3次,该字段记录为3。
  • data_date:数据日期,按日进行分区。
  • act_name:用户行为事件名称,如点击、搜索、提交等。

该表中的act_name事件名称对应的数据来源可大致分为3种类型:

  • 打点日志数据:用户访问页面时点击了哪些按钮、搜索了哪些 关键词都会通过打点日志上报记录;
  • 访问日志数据:用户访问了哪些页面,访问了多长时间都可以 从访问日志数据中挖掘;
  • 订单数据:用户订单及订单里面的商品。

其中,事件名称可以通过一张维表来记录用户不同的行为事件,行为事件划分得越细,用户在平台的行为捕捉得越全面,如下表所示。记录用户不通行为事件的维表:

事件名称事件说明事件类型
Saddtobagclick加购点击加购
Saddtobag picture click加购图片点击
$shopping_minus_click购物车点击减号
$shopping_plus_click购物车点击加号
$add tobag_submit_c lick加购物品提交
$product_click商品点击点击
Spageview_brand_click详情页品牌点击
Spageview_brandgoods_click详情页品睥推荐商品点击
Spageview delails click详情页detail查看
Spageview_gallery_click详情页图片点击
Sexposed_num曝光浏览
Spageview_view洋情页查看
Shi story_pageview浏览历史页面
Sexposed_num点赞内容点赞
Spageviewview点赞评论
Ssearch_product搜索结果点击搜索
Ssearch_result搜索关键词点击
Sshare_product打赏商品打赏
Ssharemoney打赏金额

3. 数据开发

        数据开发过程中,主要从订单表、访问日志表、打点日志表中对 用户当日的行为(加购、点击、浏览、点赞等)抽取数据,然后清洗 加载到用户特征库对应表(本案例    一
dw.cookie_feature_event_append)的当日分区下,如下图所示。

        本案例中ods.page_event_log是打点日志表,从打点日志表中获 取用户点击相关行为的事件;从订单表dw.order_info_fact中获取 cookieid当日与相关的订单数据;从cookie的访问日总表 ods.page_view_log中获取cookieid当日访问详情页相关数据。

根据用户行为事件进行数据开发,分别插入用户行为特征库中:

  • 用户加购行为带来的标签
  • 用户点击行为带来的标签
  • 用户搜索行为带来的标签

再举2个用户行为特征的例子:

  • 例1:查询近7日浏览某商品(id=6926512)详情页超过10次的用 户,拉取这部分用户对其进行商品营销
  • 例2:查询近7日浏览、收藏、关注过“母婴”品类商品的用户, 拉取这部分用户对其进行消息推送营销,

        通过用户特征库,数据分析师或数据开发人员可以从多个维度钻 取用户行为数据进行挖掘

        在特征库的开发过程中,除了从用户维度开发特征库,同样也会 对商品、商家等开发相应的特征库。通过特征库可以更方便地对用 户、商品、商家建模,并分析特征及进行算法应用。

4. 其他特征库规划

        除了要对用户特征库进行开发,也需要围绕本公司的产品进行特 征库的规划与开发。下面提供一种产品特征库的开发维度设计方案,如下表所示。商 品特征库的开发可以从商品类目、价格、曝光量、点击、加购、销量、销售额、评论、退货等多个维度展开。

字段名中文名类型备注
pro duct_id产品idBigint非空
productname产品名称String非空
lev 1 name一级类目String
lev2_name二级类目String
lev3_name二级类目String
on_sale在架状态Bigint
supplierjd供应商编码String
supplier name供应商名称String
on sale lime首次上架时间String
price吊牌侪Double
discount_price折扣价Double
cost_price成本价Double
exposure 30_times30天曝光次数Bigint
click_30_times30天点击次数Bigint
add_cart_30_iimes30天加购次数Bigint
sales_3030天销量Bigint
gmv_3030天带售额Double
marks评论数Bigint
marks_pic带图片评论数Bigint
goodcomments好评数(4&5星)Bigint
good_comment_rate好评盘(4&5星)Bigint
bad comments差评数(4&5星)Bigint
bad comment rate差评率(4&5星)Bigint
return number退货数Bigint
return__tate退货逐Double
datadate日期分区String非空

注:再次声明,此博文为根据 赵宏田 老师的 用户画像·方法论与工程化解决方案 一书读后笔记而来,仅供学习使用

注:其他相关文章链接由此进 -> 用户画像文章汇总


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

电光闪烁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值