自学数据分析day1——初识&了解

foxerStar

已于 2024-07-15 21:14:33 修改

阅读量339

点赞数 11

分类专栏：数据分析文章标签：数据分析

于 2024-07-15 18:57:42 首次发布

本文链接：https://blog.csdn.net/weixin_74206712/article/details/140440278

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、数据分析全貌认知

数据分析：观测 + 实验 + 应用

观测：对事物形成客观量化的认知（获取数据并制作报表、图表和仪表盘，找异常或者找关系）

实验：提出假设、验证假设、发现规律，得知用什么方法可以使事务朝着人为设定的方向去发展

应用：使用实验已经得到的技术和方法基于数据去不断地迭代和反馈，创造价值

二、观测

观察（采集数据、存储数据、展示数据）+ 测量（设定标准、发现异常、研究关系）

采集数据

解析系统日志、
埋点获取数据（基于系统日志新增数据）、
通过传感器采集（如智能手环）
爬虫
API（应用程序接口）：按规则提供数据，需要代码实现

存储数据

利用数据库，如 hive、SQLServer、MySQL、PostgreSQL、Oracle、Presto、Impala

展示数据

可视化传达信息，制作报表、图标、仪表盘

设定标准

使用数据设置标准（why？数据是一个统一的“度量衡”，可以形成一个共同的评判标准，凝聚生产力）
在咨询场景里，常见的有benchmark（对标），如对标研发到上市周期（time-to-market）、新产品上市盈利周期（time-to-profit）

发现异常

在咨询场景，低于benchmark的数据，即为发现异常，为异常数据。
处理方法1：及时解决-->处理异常指标
处理方法2：研究其形成原因和异常机制-->创造新价值，进行应用。比如便利贴+---本是发现了一种粘度低于标准粘度的异常胶水

研究关系

可视化查看相关性，如热力图、散点图等
算法建模推导相关性，如机器学习推导线性关系等

三、测试

抽象一点来说，为什么有一个指标会异常？为什么A指标和B指标变化相关？具体来说，为什么某一时刻外卖骑手投诉率直线上升？为什么市内地区房价会高？

找到答案的方法就是！进行测试 -----> 提出假设然后验证假设

基于现有数据进行假设

例如，某一天外卖骑手投诉率飙升，我们假设可能是天气原因，这需要对数据进行持续观察，当一次次假设都被验证成立后，我们可以得到一个规律，天气原因如下雨会导致投诉率飙升。但我们这时候其实会有一个疑问，这是显而易见的吧，为什么要这么复杂地去验证？

所有未经事实数据验证的想法都是假设，基于假设进行决策很有可能造成巨大的损失。

专门设计数据去获取数据验证假设

以A/B测试为例：

A/B 测试，简单来说，就是为同一个目标制定两个方案（比如两个页面），让一部分用户使用 A 方案，另一部分用户使用 B 方案，记录下用户的使用情况，看哪个方案更符合设计。

A/B测试流程：明确实验目标、确定核心指标、合理提出假设、预估样本数量、预估实验时长、设计开发实验、检查实验数据、设定结束标准、确定优化策略

ps：进行试验时可能会涉及很多问题，比如冷启动问题（如初始用户太少，得到的数据分析结果不具有统计学意义）、无法同时测试两个版本的问题等等，后续介绍。

四、应用

应用分为两种：基于数据反馈不断迭代产品和业务策略（基于业务）or 基于数据训练算法，让机器自动完成工作（基于算法），二者均需要拆解目标，下面我们先介绍拆解流程

拆解方法

拆解只要符合MECE（Mutually Exclusive Collectively Exhaustiv，相互独立、完全穷尽）法则即可：分类相互独立，不重叠、无遗漏，把握核心，有效解决问题

流程拆解法

将一个大型、复杂的工作或者任务,分解为一系列较小的、可管理的子任务或者步骤，用转化率来衡量每一个子任务或者步骤的表现。通过异常数据找到有问题的环节，解决问题。这种漏斗式的分析，适用于流程长、环节多，随环节进行，留存率越来越小的场景。如电商场景

二分法

把事物分为A和非A两类，如黑夜、白天；男人、女人，等等。

用于简化思维，当一件事很复杂，超出理解范围，又需要快速决策，可用二分法来简化事物，快速决策。

象限拆解法

将问题拆分成四个象限来分析和解决。这种方法通常用于复杂问题的分析和解决，尤其适用于需要综合多个因素的问题。我们需要对每个象限进行深入的分析和评估，确定它们对问题的具体影响，将这些影响结合起来解决问题。如，

杜邦分析法

是一种经典的财务分析方法。利用几种主要的财务比率之间的关系来综合地分析企业的财务状况。它是从财务角度评价企业绩效（公司盈利能力、股东收益回报水平）的方法。

AARRR

AARRR是用户获取（Acquisition）、用户激活（Activation）、用户留存（Retention）、获得收益（Revenue）、推荐传播（Referral）这个五个单词的缩写，它是用户生命周期中的5个重要环节。

获取阶段：CAC--用户获取成本、新增用户数

激活阶段：DAU--日活跃用户、MAU--月活跃用户、每次启动平均使用时长、每个用户每日平均启动次数

留存阶段：1-Day Retention--首/次日留存率，是指应用被安装使用的第二天的留存率、7-Day Retention--下载应用后七日的用户留存率

盈利阶段：ARPU--平均每用户收入值、ARPPU--平均每付费用户收入、付费用户比例、LTV--生命周期价值，即用户在第一次启动应用到最后一次启动之间的周期内为该应该用创造的收入总计，每个用户平均的LTV=每月ARPU*用户按月计的平均生命周期，LTV-CAC即用户为该应用创造的利润

推荐阶段（自传播）：K因子= (每个用户向发出的邀请的数量) * (接收到邀请的人转化为新用户的转化率)、NPS--净推荐值，即推荐者所占的百分比减去批评者所占的百分比、客户满意度

PEST

是对宏观环境的分析，从政治（Politics）、经济（Economic）、社会（Society）、技术（Technology）四个方面，把握宏观环境的现状及变化趋势，从而制定和调整测量。

PEST分析的运用领域有：公司战略规划、市场规划、产品经营发展、研究报告撰写。

P较难量化，可以对趋势做一个整体的把握。

E是比较容易量化。因为宏观经济形势，会在上游、下游企业，以及行业自身的新进入/退出玩家身上，得到充分的表现。并且，这种表现一定会反映到自己企业里。

量化S，建议直接看行业的终端用户群体，通过对终端用户需求的了解，来判断社会变化可能对行业的影响。

T是相对容易量化的，因为T的变化，会反映到商品新卖点/生产成本的变化。因此不用管具体的新技术是啥，只要请教我们的供应链/开发工程师们，是否这个新技术能影响收入/成本即可。

是衡量客户价值和客户创造利益能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的。它通过一个客户的近期购买行为Recency、购买的总体频率Frequency以及消费金额Monetary这3项指标来描述该客户的价值状况。它是一种利用时间、频次、数量关系，区分轻重度用户的方法。