此项目还未写完
一 项目背景介绍
基于新闻咨询行业的头条数据进行的准实时处理的数据仓库建设。 新闻咨询行业的app,软件有 今日头条,腾讯新闻,百度浏览器,360浏览器。 这些app产生的数据流,我们使用structuredstreaming框架来处理,进而将处理后的数据保存到hive中,建模,做一些数据分析,展示,监控等。
1.1 简介
要处理的数据,有三种
用户行为数据
业务数据
内容数据
目的:
构建数仓模型,分析这些数据的价值
两种分析模型:
用户行为分析模型: 事件分析,留存分析,漏斗分析
DAU预测模型: 日活用户数据的预测,预测未来的数据情况。
1.2 行为分析模型
1.2.1 事件分析
1. 事件是用来记录或者追踪用户行为的,如`用户登录`,`浏览新闻`,`点击新闻进入详情页`,`点击新闻列表中的广告`,`发布评论`
-- 事件一般都会有一个字段event来记录
-- 事件还有其他状态数据,也会有相关属性记录
2.所谓事件分析,就是基于事件的指标统计,属性分组,条件筛选等功能的查询分析
-- 例子1:最近10天那个渠道的新增用户最多,及变化趋势。
-- 例子2:每天每个地域的活跃用户数,新增用户数是多少
1.2.2 留存分析
1. 留存这个指标是衡量产品对用户价值高低的重要指标。
2. 留存分析是一种用来分析用户活跃程度/参与情况的分析模型
-- 留存分析中,定义了两个行为,分别是初始行为,和后续行为
-- 对于如何选择初始行为和后续行为,有两种策略:
(1)一种是初始行为和后续行为相同,用于分析用户忠实度, 本项目选择的是该策略
(2)一种是初始行为和后续行为不同,用来衡量评估产品迭代或运营策略调整的得失与好坏
(3)选择的初始行为和后续行为在业务上要有意义
-- 留存表示的是在选定时间范围内进行了初始行为的用户有多少人在随后的第 N 天/周/月进行了后续行为
-- 举例说明:
例子1:初始行为是APP启动,后续行为同样是APP启动,那么就是计算APP活跃用户留存。
例子2:初始行为是APP注册,后续行为是APP启动,那么就是计算注册(新增)用户留存
1.2.3 漏斗分析
漏斗模型指的是多个自定义事件序列按照指定顺序依次触发的流程中的量化转化模型。通俗点说,就是从起点到终点有多个环节,每个环节都会产生用户流失,依次递减,每一步都会有一个转化率。另外衍生出“路径分析方法”,包括:关键路径、扩散路径、收敛路径、端点路径,每一条路径,都是一个漏斗。
1. 漏斗模型主要分析多步骤过程中每一个步骤的转换与流失用户情况
2. 漏斗模型中的三个概念:
-- 漏斗步骤 : 漏斗的每一步,其实就是一个行为事件或者带条件的行为事件
-- 漏斗时间范围 : 指的是漏斗发生的时间范围
-- 漏斗窗口期:指的是用户完成漏斗的时间限制,只有在这个窗口期的时间范围内,用户从第一步进行到最后一步,才能算作一
次完整的漏斗转化
举例说明:
从用户发表评论的完成流程可以包含以下步骤:
1. 用户登录
2. 浏览新闻
3. 点击新闻进入详情页
4. 发布评论
可以将上述流程设置为一个漏斗,分析整体的转化情况及每一步的转化率
1.3 DAU预测模型
DAU(Daily Active User),日活跃用户数量。一般用于反应网站、互联网应用等运营情况。