大数据分析的四个环节

最新推荐文章于 2024-04-26 20:25:37 发布

weixin_43644600

最新推荐文章于 2024-04-26 20:25:37 发布

阅读量853

点赞数 1

文章标签：大数据

在这里插入图片描述
什么是大数据？
随着大数据时代的到来，AI 概念的火热，人们的认知有所提高。为什么说大数据有价值？这是不是只是一个虚的概念？大家怎么考虑数据驱动问题？为什么掌握更多的数据就会更有效？这些问题很难回答，但是，大数据绝不是大而空洞的。

信息论之父香农曾表示，信息是用来消除不信任的东西，比如预测明天会不会下雨，如果知道了今天的天气、风速、云层、气压等信息，有助于得出更准确的结论。所以大数据是用来消除不确定性的，掌握更多的有效数据，可以驱动企业进行科学客观的决策。

桑文锋对大数据有着自己的理解，数据采集遵循“大”、“全”、“细”、“时”四字法则。

“大”强调宏观的“大”，而非物理的“大”。大数据不是一味追求数据量的“大”。比如每天各地级市的苹果价格数据统计只有 2MB，但基于此研发出一款苹果智能调度系统，就是一个大数据应用，而有些数据虽然很大，却价值有限；

“全”强调多种数据源。大数据采集讲求全量，而不是抽样。除了采集客户端数据，还需采集服务端日志、业务数据库，以及第三方服务等数据，全面覆盖，比如美国大选前的民意调查，希拉里有70%以上胜算，但是川普成为了美国总统，因为采样数据有偏差，支持川普的底层人民不会上网回复。

“细”强调多维度数据采集，即把事件的维度、属性、字段等都进行采集。如电商行业“加入购物车”的事件，除了采集用户的 click 数据，还应采集用户点击的是哪个商品、对应的商户等数据，方便后续交叉分析。

“时”强调数据的时效性。显然，具有时效性的数据才有参考价值。如国家指数，CPI 指数，月初收集到信息和月中拿到信息，价值显然不同，数据需要实时拿到，实时分析。

从另一个视角看待数据的价值，可以分为两点，数据驱动决策，数据驱动产品智能。数据的最大价值是产品智能，有了数据基础，再搭建好策略算法，去回灌产品，提升产品本身的学习能力，可以不断迭代。如今日头条的新闻推荐，百度搜索的搜索引擎优化，都是数据驱动产品智能的体现。
在这里插入图片描述
数据分析四个关键环节
桑文锋把数据分析分为四个环节，数据采集、数据建模、数据分析、指标。他提出了一个观点，要想做好数据分析，一定要有自底向上的理念。很多公司的数据分析自顶向下推动，用业务分析指标来决定收集什么数据，这是需求驱动工程师的模式，不利于公司长久的数据采集。而一个健康的自底向上模式，可以帮助公司真正建立符合自己业务的数据流和数据分析体系。
在这里插入图片描述

一、数据采集
想要真正做好大数据分析，首先要把数据基础建好，核心就是“全”和“细”。

搜集数据时不能只通过 APP 或客户端收集数据，服务器的数据、数据库数据都要同时收集打通，收集全量数据，而非抽样数据，同时还要记录相关维度，否则分析业务时可能会发现历史数据不够，所以不要在意数据量过大，磁盘存储的成本相比数据积累的价值，非常廉价。

常见的数据采集方式归结为三类，可视化/全埋点、代码埋点、数据导入工具。
在这里插入图片描述
第一种是可视化/全埋点，这种方式不需要工程师做太多配合，产品经理、运营经理想做分析直接在界面点选，系统把数据收集起来，比较灵活。但是也有不好的地方，有许多维度信息会丢失，数据不够精准。

第二种是代码埋点，代码埋点不特指前端埋点，后端服务器数据模块、日志，这些深层次的都可以代码埋点，比如电商行业中交易相关的数据可以在后端采集。代码埋点的优势是，数据更加准确，通过前端去采集数据，常会发现数据对不上，跟自己的实际后台数据差异非常大。可能有三个原因：第一个原因是本身统计口径不一样，一定出现丢失；第二点是流量过大，导致数据丢失异常；第三点是SDK兼容，某些客户的某些设备数据发不出去，导致数据不对称。而代码埋点的后台是公司自己的服务器，自己核心的模拟可以做校准，基本进行更准确的数据采集。

第三种是通过导入辅助工具，将后台生成的日志、数据表、线下数据用实时批量方式灌到里面，这是一个很强的耦合。

数据采集需要采集数据和分析数据的人共同参与进来，分析数据的人明确业务指标，并且对于数据的准确性有敏感的判断力，采集数据的人再结合业务进行系统性的采集。

二、数据建模
很多公司都有业务数据库，里面存放着用户注册信息、交易信息等，然后产品经理、运营人员向技术人员寻求帮助，用业务数据库支持业务上的数据分析。但是这样维护成本很高，且几千万、几亿条数据不能很好地操作。所以，数据分析和正常业务运转有两项分析，数据分析单独建模、单独解决问题。

数据建模有两大标准：易理解和性能好。

数据驱动不是数据分析师、数据库管理员的专利，让公司每一个业务人员都能在工作中运用数据进行数据分析，并能在获得秒级响应，验证自己的新点子新思维，尝试新方法，才是全员数据驱动的健康状态。

多维数据分析模型（OLAP）是用户数据分析中最有效的模型，它把用户的访问数据都归类为维度和指标，城市是维度，操作系统也是维度，销售额、用户量是指标。建立好多维数据分析模型，解决的不是某个业务指标分析的问题，使用者可以灵活组合，满足各种需求。

三、数据分析
数据分析支持产品改进

产品经理在改进产品功能时，往往是拍脑袋灵光一现，再对初级的点子进行再加工，这是不科学的。《精益创业》中讲过一个理念，把数据分析引入产品迭代，对已有的功能进行数据采集和数据分析，得出有用的结论引入下一轮迭代，从而改进产品。在这个过程中大数据分析很关键。

Facebook 的创始人曾经介绍过他的公司如何确定产品改进方向。Facebook 采用了一种机制：每一个员工如果有一个点子，可以抽样几十万用户进行尝试，如果结果不行，就放弃这个点子，如果这个效果非常好，就推广到更大范围。这是把数据分析引入产品迭代的科学方法。

桑文锋在 2007 年加入百度时，也发现了一个现象，他打开邮箱会收到几十封报表，将百度知道的访问量、提问量、回答量等一一介绍。当百度的产品经理提出一个需求时，工程师会从数据的角度提出疑问，这个功能为什么好？有什么数据支撑？这个功能上线时如何评估？有什么预期数据？这也是一种数据驱动产品的体现。

数据驱动运营监控
在这里插入图片描述

运营监控通常使用海盗模型，所谓的运营就是五件事：触达是怎么吸引用户过来；然后激活用户，让用户真正变成有效的用户；然后留存，提高用户粘性，让用户能停留在你的产品中不断使用；接下来是引荐，获取用户这么困难，能不能发动已有的用户，让已有用户带来新用户，实现自传播；最后是营收，做产品最终要赚钱。要用数据分析，让运营做的更好。

数据分析方法

互联网常见分析方法有几种，多维分析、漏斗分析、留存分析、用户路径、用户分群、点击分析等等，不同的数据分析方法适用于不同的业务场景，需要自主选择。举个多维分析的例子，神策数据有一个视频行业的客户叫做开眼，他们的软件有一个下载页面，运营人员曾经发现他们的安卓 APP 下载量远低于 iOS，这是不合理的。他们考虑过是不是 iOS 用户更愿意看视频，随后从多个维度进行了分析，否定了这个结论，当他们发现某些安卓版本的下载量为零，分析到屏幕宽高时，看出这个版本下载按钮显示不出来，所以下载比例非常低。就这样通过多维分析，找出了产品改进点。

举个漏斗分析的例子，神策数据的官网访问量很高，但是注册-登录用户的转化率很低，需要进行改进。所以大家就思考如何把转化漏斗激活地更好，后来神策做了小的改变，在提交申请试用后加了一个查看登录页面，这样用户收到账户名密码后可以随手登录，优化了用户体验，转化率也有了可观的提升。

四、指标
如何定义指标？对于创业公司来说，有两种方法非常有效：第一关键指标法和海盗指标法。

第一关键指标法是《精益数据分析》中提出的理论，任何一个产品在某个阶段，都有一个最需要关注的指标，其他指标都是这个指标的衍生，这个指标决定了公司当前的工作重点，对一个初创公司来说，可能开始关注日活，围绕日活又扩展了一些指标，当公司的产品成熟后，变现就会成为关键，净收入（GMV）会变成第一关键指标。

weixin_43644600

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据分析的四个环节

什么是大数据？随着大数据时代的到来，AI 概念的火热，人们的认知有所提高。为什么说大数据有价值？这是不是只是一个虚的概念？大家怎么考虑数据驱动问题？为什么掌握更多的数据就会更有效？这些问题很难回答，但是，大数据绝不是大而空洞的。信息论之父香农曾表示，信息是用来消除不信任的东西，比如预测明天会不会下雨，如果知道了今天的天气、风速、云层、气压等信息，有助于得出更准确的结论。所以大数据是用来消除不...
复制链接

扫一扫