数据分析2--数据指标体系与数据异动分析

不上晚自习

已于 2023-09-02 01:09:16 修改

阅读量3.0k

点赞数 30

文章标签：数据分析数据仓库需求分析

于 2023-03-09 22:39:34 首次发布

本文链接：https://blog.csdn.net/weixin_43784274/article/details/129431338

版权

一、数据埋点

数据获取的方式有很多，可以通过用户调研获取数据，也可以通过软件工具抓取所需数据，购买第三方的数据也是一种方法。但这些方法对于互联网企业来说都是获取数据的辅助方法，主流方法还是通过数据埋点获得。

流程：

互联网的海量数据是通过数据埋点技术采集用户行为数据而产生的，每当用户在客户端发生一个行为操作，这个操作会被对应页面位置背后的代码采集到，这就是数据埋点技术；采集到的数据通过SDK（Software Development Kit）上报，这就是数据上报技术；上报后的数据通过一系列处理流程进入数据仓库，形成海量的用户数据。

数据分析师需要关注三个问题：

第一，用户的哪些行为会被采集到，是在客户端还是在服务器被采集到；

第二，实现用户数据采集的技术有哪些以及它们之间的异同；

第三，采集到的用户数据是如何实现上报的。

网站或者App能够采集到用户的四类信息：

①设备的硬件信息，如设备品牌、型号、主板、CPU、屏幕分辨率等；

②软件能力，就算没有点击网页或者App、横竖屏、截屏、摇一摇等操作也会被记录下来；

③数据权限，新注册某款软件时，对于相册、通讯录、GPS等比较私密的信息一般会跳出让用户授权的页面，如果用户同意授权，那么网页或者App就能够采集到这些信息；

④用户行为，用户只要对网页或者App进行操作，行为都会被记录下来。

1.1 数据埋点的分类

前端埋点通过SDK进行数据采集，为了减少移动端的数据流量，通常对采集的数据进行压缩、暂存、打包上报。对于那些不需要实时上报的事件，通常只在Wi-Fi环境下上报，因此会出现数据上报的延迟与漏报现象。

后端埋点通过调用API（Application Programming Interface）采集信息，使用内网传输信息，基本不会因为网络原因丢失数据，所以后端传输的数据可以非常真实地反映用户行为。理论上，只要客户端向服务器发送请求，服务器埋点就能够收集到相应的数据。相比于前端埋点，后端埋点能实时采集数据，不存在延时上报现象，数据很准确；并且后端埋点支持与用户身份信息和行为附带属性信息的整合；另外，每次上线新的埋点或者更新埋点时，发布后埋点马上生效。

1.2数据上报技术

获取信息后需要将数据上报，然后入库储存。

1. 客户端上报：

用户在客户端进行操作时，客户端通过网络发送HTTP（Hypertext Transfer Protocol）请求给服务端，同时将数据上报给服务端（服务器）。客户端会将用户数据积攒起来，业内称这个积攒下来的数据为数据包，在某个时间点客户端统一将数据包上传给服务器。这种上报方式称为异步上报。整个客户端上报过程是需要网络的，在极端情况下，客户端正准备上报数据包时断网，如果网络没有“重连”机制或者一直连不上网络，这个数据包就会丢失，称为丢包。这解释了客户端上报的数据不那么准确的原因。

2. 服务端获取：

在网页中，用户首次看到的内容，都是从服务器返回的。那么服务器在应答客户端请求的时候，也能获取一些基本信息，比如浏览器类型、版本号、屏幕分辨率、IP地址等。

1.3数据埋点方案设计

埋点是统一数据口径（维度、单位）的一个重要环节，数据分析师需要立足于当前的数据需求，提炼出数据指标方案，并且构思这些指标需要哪些数据，这些数据也就是需要的埋点。如：需要确定时间触发机制和上报机制，因为不同的机制意味着不同的统计口径。对于新业务方来说，为了避免因统计口径不一致而出现乌龙事件，统计指标最好能和之前的口径一致，以方便横向比较。除此之外，统一各个项目之间的字段名和表结构也是一项必不可少的工作，这个步骤也是数据治理流程中必不可少的环节。

通过六个步骤实现数据埋点设计

1. 确认事件与变量

这里的事件是指产品中的功能或者用户的操作，变量是指描述事件的属性或者关键指标。确认事件与变量可以通过AARRR或者UJM（User Journey Map，用户旅程图）模型进行逐步拆解，理清用户生命周期和行为路径，抽象出每一个步骤的关键指标。

2. 明确事件的触发时机（触发条件）

不同的触发时机代表着不同的事件计算口径，是影响数据准确性的重要因素。以用户付款为例，是以用户点击付款界面作为触发条件，还是以付款成功作为触发条件进行埋点呢？二者口径不同，数据肯定会有一定差异，因此明确事件的触发条件非常重要。在用户付款这个例子中，建议使用两个字段记录用户付款行为：一个字段记录点击付款界面这个行为，另一个字段记录是否付款成功。

3. 明确事件的上报机制

上报机制也是数据准确性的重要影响因素之一。客户端上报数据可能会由于网络连接原因出现丢包的情况，数据分析师在完成埋点工作的时候也需要确定数据是实时上报还是异步上报，以确定埋点是否合理，并及时调整数据埋点方案。

4. 统一表结构

统一数据表结构，可方便团队内部进行数据的管理和数据复用，建议在团队内部形成一套统一的数据结构规范。例如，将表分为不同的层级，第一层记录用户的基础信息，包括用户ID、地区、昵称等；第二层记录用户行为信息。

5. 统一字段名规范

有了统一的数据表结构规范还不够，统一数据命名规范也是数据埋点工作的重要一环。如果有条件的话，可以建立数据字典，以统一数据命名规范。例如，确保同一变量在所有的数据表中都用统一的字段名。对于消费金额这个字段，数据分析师希望所有的表中只要出现消费金额都用Amount字段名，不要出现money、payment等其他字段名。

6. 明确优先级

数据埋点是为数据应用做铺垫的。埋点之后，数据分析师可能面临着搭建指标体系和数据报表体系的工作，可以根据报表的优先级、埋点的技术、实现成本及资源的有限性，为数据埋点确定优先级。

下图为电商交付的数据埋点设计实例和对应的最终埋点文档：

二、数据标签体系

数据标签体系的构建是原始数据处理中的重要一环，依据用户历史行为数据对每个用户的社会属性、商业属性、内容属性、行为属性等打上相应的标签，以实现用户分层精准运营。

用户的数据标签是通过对用户行为数据进行加工处理得到的，它是用来描述实体业务特征的数据形式。挖掘用户的数据标签是企业实现广告定向投放、精准推送的先决条件。用户的数据标签是指通过对用户的社会属性、消费习惯、偏好特征等多个维度的数据进行采集和处理，实现对用户或产品属性特征的刻画，并对这些特征进行分析、统计，挖掘潜在价值，从而抽象出用户的信息全貌。

下图为数据标签体系构建流程：

意义：

数据标签是人为设定的特征标识，是对用户特征高度精练的描述。在不同的领域，数据标签有不同的应用场景。总结起来，数据标签体系的作用可以归纳为用户洞察、个性推荐、渠道优化、营销增强等几个方面。

对于广告投放场景来说，数据标签体系能够实现人群的精准圈选，以实现广告投入产出比最高；

对于电商来说，数据标签体系能够实现用户分层运营、商品精准推荐，从而实现GMV最大化；

对于内容服务平台来说，数据标签体系能够实现内容精准推送，提升流量变现能力。

分类：

从计算方式层面分类，可以分为统计类标签（eg. 近7日活跃天数）、规则类标签(eg. 付费金额≥2000元的用户定义为高付费用户)、模型类标签（例如机器学习类标签）。统计类标签和规则类标签主要由数据分析师负责构建和维护，模型类标签则通常由算法工程师维护。

标签更新时间层面一般可以分为两类，即离线标签和实时标签。离线标签大多数情况下是隔天更新的，即以T+1的方式进行更新；很多场景下，按分钟级别、秒级别进行数据响应的就需要实时标签。通常情况下，数据分析师负责处理的数据标签都是离线标签。

2.1 数据标签体系与用户画像

数据中心通过对采集到的数据进行加工处理可以形成一系列的用户数据标签，同一用户多个标签的集合就组成了用户画像。数据标签和用户画像可以帮助企业实现精细化运营和精准营销。

用户画像是数据标签的应用场景之一。数据中心通过采集用户人口属性数据、行为数据、内容偏好数据生成用户的数据标签，并将多个标签整合以及可视化最终生成用户画像。

用户数据标签的层级分类：

一般情况下，数据标签体系是由不同的维度构成的上千个数据标签的集合，将这些散乱的标签有序地管理起来就需要构建一定的层级结构。在进行数据标签层级分类的时候尽量参照MECE（Mutually Exclusive Collectively Exhaustive）原则，即相互独立，完全穷尽。

2.2 数据标签体系的应用

数据标签体系通常服务于数据产品

1.标签体系辅助运营人员进行决策分析: 对于业务方来说，数据标签体系是用户精细化运营的基础。数据标签体系通常以数据产品平台和开放标签查询、人群圈选及分析和自动化触达等功能的形式交给业务方。

2.数据标签体系可提升数据分析师的分析效率: 对于数据分析师来说，数据标签体系提升了数据分析师的分析效率。无论是面对用户分群的分析需求，还是指标体系的搭建相关需求，数据分析师基本都可以从数据标签体系底层表中直接取数，而不需要通过SQL再写几十行代码对数据进行分箱（分类），进而生成相应的标签，所以能够节省一定的时间成本

2.3 如何构建数据标签体系

标签体系构建前期，需要业务部门与数据部门共同解读目标，确认数据标签需求细节及使用场景，并由数据部门确定统一的数据统计口径，完成标签开发及部署上线。

数据分析师的职责：

在需求沟通阶段，数据分析师需要从宏观层面解读目标，明确业务场景及业务方的最终目标；明确需求之后，在数据标签开发阶段，数据分析师主要承担统计类标签和规则类标签的开发和维护工作。在标签开发阶段，需要统计哪些信息，规则如何制定，都是需要数据分析师和业务方共同讨论确定的。待数据标签开发完成后，就可以交给数据工程师完成线上部署及定时调度等配置。当然，在数据标签开发完后，数据分析师的工作并未结束，后期对于数据标签的维护也是其重要工作之一。在数据标签维护过程中，数据分析师可能会需要根据业务需求和业务逻辑的变更及时地对数据标签体系进行调整。

以某App付费用户的数据标签体系的构建为例，浅析数据标签体系构建过程：

1. 使用5W2H分析框架，一步步明晰业务目标及预期

2. 制定用户标签基础框架

3. 确定标签维度及统一计算口径

对于各个数据标签的计算口径，数据部门可以制定出一份统一的数据字典，以防止不必要的解释成本。

4. 数据标签开发

数据分析师主要负责统计类标签和规则类标签的开发；算法工程师主要负责模型类标签的开发。对于统计类标签的开发，数据分析师在与运营人员等业务方沟通好需求之后，可通过SQL实现相关标签的统计并通过定时调度任务定期更新数据标签。例如，每月活跃用户在当月活跃情况的数据标签。

5. 标签上线与版本迭代

三、数据指标体系

数据的核心作用之一就是监控业务的发展变化，发现潜在的业务问题。在实现通过数据监控业务变化这项功能时，数据指标体系会发挥强大作用。数据分析师基于用户原始数据及用户标签，设计业务的监控指标并通过BI（商业智能）工具定时调度实现业务现状监控。

3.1 指标体系定义：

用精准的数字和具体的指标来说明中国人口现状。官方的说法是这样的，据国家统计局发布的2019年经济年报数据显示，2019年全国人口总数超过14亿人，新生人口数达1465万人，人口出生率为10.41‰；死亡人口数为998万人，人口死亡率为7.09‰；人口自然增长率为3.32‰。

例子中，人口总数、出生率、死亡率、自然增长率是四个不同的指标，它们从不同的维度描述了中国人口现状；当将多个不同的指标有规律、有体系地组织在一起去量化人口现状时，它们就成为一套指标体系。所以，根据上面的例子可以重新给指标体系下一个定义。指标体系是指标与体系的结合体，是一套从多个维度拆解业务现状并有系统、有规律地组合起来的多个指标。也就是说，单个指标只能称为指标，多个有一定规律、内部有一定关联的指标的组合才能称为指标体系。

功能：

第一，指标体系是一套标准化的衡量指标，可以监控业务的发展情况；

第二，指标体系可以形成报表并固化下来，以减少重复的工作；

第三，如果业务出现问题，数据分析师可以通过指标拆解，实现业务之间的横向和纵向对比，迅速定位业务问题，给出业务优化方向。

一套好的指标体系极大地减少数据分析师的临时取数工作，因为业务存在的问题都可以通过指标体系中的数据回溯、下钻和分级拆解得到暴露。如果数据分析师做完一套指标体系之后，业务方还是频频找你提出取数需求，那么可能是你的指标体系还存在优化的空间，这时候就应该先寻找指标体系的问题。

3.2 构建一套指标体系需要注意哪些问题

1）数据提前埋点：对于互联网公司而言，数据产生于用户行为，用户行为都是通过埋点触发而记录的，所以要获得相应的用户数据，就得先埋好点。

2）统一计算口径：不同的计算口径计算出的数据会略有差异。统一的计算口径可以使业务具有横向和纵向的可比性，所以需要统一整套指标体系的最小计算单位。

3）指标穷尽且相互独立，遵循MCEC原则：对于某一块业务，我们需要下钻和拆解。下钻维度和拆解维度需要相互穷尽且完全独立，也就是麦肯锡提出的MECE（Mutually Exclusive Collectively Exhaustive）原则。只有这样才能更好地暴露业务存在的问题。

3.3 构建指标体系

用三个步骤、四个模型的方法构建指标体系：

指标体系构建的方法可以总结为三个步骤，即：

明确业务目标、理清用户生命周期及行为路径、指标体系分层治理。

在这三个步骤中又涉及OSM（Object Strategy Measure）、AARRR（Acquisition Activation Retention Revenue Referral）、UJM（User Journey Map），MECE（Mutually Exclusive Collectively Exhaustive）四个模型，这四个模型是指导数据分析师构建完整而清晰的指标体系的方法论。

1. OSM模型——明确业务目标，数据赋能业务

数据分析师在建立数据指标体系之前，一定要清晰地了解业务目标，也就是OSM模型中的O（Object），然后需要制定相应的行动策略，也就是模型中的S（Strategy），最后，需要数据分析师制定较细的评估指标，也就是模型中的M（Measure）

2. AARRR模型和UJM模型——理清用户生命周期及行为路径

AARRR模型和UJM模型都是路径模型，二者原理相似，只是它们出发的角度不一样。从产品角度还是从用户角度进行链路流程拆解，核心KPI都可以下钻到相应的节点，这样数据分析师就在整条链路流程中拆解了业务的核心KPI。这样做的好处是，数据分析师可以从更多的角度和维度监控和分析业务问题。

AARRR模型是从产品角度出发的，揭示用户的生命周期；

UJM模型是从用户出发的，揭示用户的行为路径。

AARRR模型基于用户生命周期，简单来说就是获取、激活、留存、付费、推广。对于一款产品来说，首先要从各个渠道获取用户；其次需要激活这些用户并让其留存下来；对于留存下来的用户，要引导其付费及推广产品。

UJM模型是从用户角度出发的，描述了用户进入产品的整个路径流程，即注册、登录、加购、购买、复购。

3. MECE模型——指标体系分级治理

前面两个步骤，首先明确了业务核心目标；其次，将业务的核心KPI下钻到产品生命周期或者用户路径行为中；最后，数据分析师需要对这些核心KPI向下进行三到五层的拆解，这个过程称为指标体系分级治理，用到的模型是MECE模型，MECE模型的指导思想是完全独立，相互穷尽，根据这个原则拆分可以暴露业务最本质的问题，帮助数据分析师快速地定位业务问题。

GMV：商品交易总额（Gross Merchandise Volume） UV：独立访客数

曝光UV等指标还可以继续向下拆解，例如，谷歌渠道曝光UV、华为渠道曝光UV等，可以根据具体的工作场景进行适当的调整和向下拆解。

3.3 完整的指标体系搭建流程的7个步骤：

（1）需求收集：产品（策划）经理或者运营人员完成产品原型（策划案）或者运营方案，数据分析师根据原型（策划案）或者运营方案提炼数据需求，评估需求可行性并和需求方讨论，修改不合理需求。

（2）需求汇总及排期：数据分析师将数据需求整理成文档并根据优先级对需求进行排期。

（3）确定指标体系方案：数据分析师以OSM模型、AARRR模型、UJM模型、MECE模型作为指导思想，初步确定指标体系建设方案。

（4）确定数据埋点方案：数据分析师根据初步的指标体系建设方案设计埋点方案，同时给出字段命名规范及数据采集方案。然后，数据分析师将上述方案给到前后端进行埋点。

（5）数据采集：在数据采集阶段，数据工程师需要将前后端埋点数据送入数据仓库并进行数据清洗。

（6）搭建指标体系：在搭建指标体系之前，数据分析师需要对入库的数据进行核验，检查数据是否全，数值是否正确。然后，根据指标体系建设方案进行指标体系搭建及落地。

（7）效果评估：指标体系落地，用于监控业务现状，指导业务决策，定位业务问题，在业务方的不断反馈中逐渐完善整套指标体系。

下面是指标体系的一个实例：

四、数据异动

用MECE模型对数据波动进行一个分类，尽可能地列举数据波动成因的所有类别，并且使得各个类别之间彼此独立。

最终将数据波动划分为5个类别：

为找到由意外因素引起的波动，应用数据波动分析的四排除对以下情况进行排除：

对于前四类数据波动来说，并不需要使用逻辑树的拆解方法定位异动因素。所以在进行逻辑树拆解之前，先要排除前四种数据波动。否则，可能通过逻辑树拆解却一无所获，最后发现是数据传输问题造成的。

1. 排除数据周期性异动：排查数据异动的第一步是，先确定数据的波动是否是周期性波动引起的，因为周期性波动属于正常的波动。对于不同的业务，周期性波动可能会受到季节、节假日、周末等因素的影响，需视具体的业务情况而定。例如，对于一款游戏来说，周末、节假日的DAU肯定比工作日要高；如果看小时数据的话，每天12：00～14：00及20：00以后的数据会比其他时间段的高。

2. 排除内部因素的影响：通常情况下，内部影响来源于业务活动。例如，运营人员经常组织的拉新、促活、促销等活动通常会造成某一段时间内的活跃用户数、销售额等指标高于平时。

3. 排除外部因素的影响：除了业务方主动行为造成的数据波动，还会有一些外部因素造成的数据波动。例如，天气、政策、竞争对手等外部因素的影响，数据分析师也无能为力。

4. 排除数据传输问题：周期性波动、业务方内部主动行为造成的数据波动及外部政策造成的数据波动是正常的数据波动。数据波动还可能受到数据传输的影响，数据传输出现问题会造成数据缺失，进而造成数据波动。

5. 确定是由意外因素引起的波动后，通过逻辑树确定数据波动影响因素。如果数据的波动不是自然波动，也不是内部主动行为或外部因素引起的，更不是数据传输问题造成的，而是由一些意外却不可知的因素造成的，这时候就需要通过逻辑树的方式查找到底是什么原因造成数据的波动。例如：某天某个产品的DAU发生异常波动，业务方希望你能帮忙找到异动原因：

首先，数据分析师需要对DAU进行拆解，根据用户构成可以将DAU拆解为新用户和老用户；

老用户又可以拆分为留存用户和回流用户；

回流用户又可以继续拆分为近七日注册的回流用户和七天前注册的回流用户。

通过这样的拆分，可以看出到底是新用户少了还是老用户少了，明确问题后继续向下拆分确定最细颗粒度的影响因素。

数据分析师也可以对新用户进行其他维度的拆分，可以按地区进行拆分，看看到底是哪个地区的新用户减少造成的，如果是整体用户减少造成的，那可能是产品本身存在一定问题，和新用户的匹配性不是很好；如果是某个地区的用户减少，则可以继续拆解维度，可以考虑以服务器为维度进行拆解，因为某个地区的用户骤减可能是该地区服务器坏了，这是思考角度之一；还可能是产品在当地的本地化做得不够好，对于某个地区的用户群体没有足够的吸引力。