数据工作的几点总结

一、对数据要有掌控感

先以一个工作中遇到的实际案例来开头吧。之前在杭州有一段工作,刚入职的时候就负责公司主要产品的销量预测任务。我和一个数据工程师做了对接,从他那里获得了销量的历史数据,了解了基本业务流和数据流的流程,对数据的每个属性维度的含义也都进行了说明,于是我就从观察数据开始,逐步进行处理和分析。

训练完模型之后,发现几个SKU的销量在验证集中总有那么几天预测不准。我开始以为是Prophet模型参数设置的问题,但是调整后还是没有改善。于是我和数据工程师、市场部同事又进行了讨论,终于发现原来是由于库存缺货状态导致的。由于公司主要在海外销售产品,并在海外不同区域建立了3PL,而业务规定有些SKU是可以在不同的3PL之间进行调货的,有些则不允许。我建立的模型是假设各个区域都不允许调货的。假设与实际不符,建的模型预测效果也好不到哪里去。

后来对这段经历进行反思,总结出一些经验。

1、细节决定成败

这是老话了,老生常谈说明还是有道理的,对这句话没感觉或者嗤之以鼻的可能是没遇到细节决定成败的事情吧。数据工作者和数据打交道,一定要注意细节:数据怎么来的,为什么要这个数据,业务背景和需求是什么;它是原生指标还是衍生指标或者是组合指标,它的数据上游和下游是什么;它的产生时间、影响范围是什么;它有多少取值,每个取值的意义是什么,都应该搞清楚,对数据要有掌控感。

2、需求和业务要摸透

数据说到底还是为需求和业务服务的,要么是描述现状(描述性统计、可视化),要么是预测未来(统计模型),也可能需要提供干预建议(因果推断,识别假因果)。但是如果需求或者业务没搞透,那就可能分析了个寂寞。

3、对数据要进行认真观察和检验

尽管你对需求、业务和获得的数据都调研清楚了,但是如果数据不是你自己处理的且熟记于心的,一定要对数据进行认真观察和检验。你获得的数据不一定符合给你提供数据的工程师或者业务同事的描述,要进行反馈和沟通,直到各方对数据理解一致。

4、紧紧围绕目标展开工作

后续的数据处理、探索分析、可视化以及特征工程、建模、模型评价和因果分析都要围绕目标开展。以模型评价为例,目标更注重的是召回率还是准确率,具体的成本收益是如何计算的,这都是影响模型评价的主要因素,而不是数据分析师理想中的那个理论指标。

二、应注重闭环思维、模型思维的提升

1、闭环思维

从单个节点看,要有过程管理思维,也就是输入、输出和实现路径的完整链路思维。

输入包括需求/目的和所需资源:我负责的工作的目的是什么,需求来源是谁,数据和相应资源找谁争取;

输出:我负责的工作的预期结果是怎么样的,是分析现状,还是提供建议?结果输出给谁,有哪些具体要求等;

路径:为实现从输入到输出的转化,所需要的技术、工具和工作,这是数据工作者的专业,取决于专业能力,但一般都不会忽略。在实际工作中更容易忽略的是输入和输出的沟通和明确工作。

从全局来看,这项工作的意义是什么,这里的意义不是指具体的某个需求,而是对企业战略和业务的意义。

2、模型思维

RFM(消费的最近、频率、金额,聚类分析)、转化漏斗(指标乘法)、留存复购分析、AARRR、波士顿矩阵分析、SWOT等等模型,多学习,多实践。

三、工具的学习建议

1、了解工具的原理、机制,形成自己的理解

了解工作的原理和机制的目的是为了提高工作效率,而不是纯粹为了深入掌握工具原理,也不需要了解到那么底层。以SQL为例,网上的学习资料很多,从语法到函数,但我认为这些都不算SQL的原理和机制。我个人对SQL的理解中最重要的一条就是虚拟表,SQL就是把源表按照一步步的虚拟表最终转换成需要的结果。我们在写SQL时把每一步的虚拟表想清楚,就完成80%的工作了。

Python相对于SQL来说要更复杂一点,牵扯到的编程知识要更多,功能也更强大。这可能就需要更长时间的积累才能形成自己的理解。

2、熟悉工具字典,建立功能索引

了解了工具的原理和机制之后,就知道这个工具该怎么用了,那他都能做什么呢?这就需要了解工具的语法以及提供的各种函数和库,最实用的方法是这样的:在遇到一个问题时,我知道这个工具有这样一个功能,我在哪里能查到这个功能怎么实现,这就够了。所以最重要的时建立一个以功能为索引的工具字典(以功能为索引比以每个具体函数为索引更容易记忆),剩下的交给时间,无他,惟手熟尔。

四、算法的建议

1、统计学。包括重要的分布以及假设检验思想。

2、传统机器学习。不包括神经网络的机器学习。例如线性回归、逻辑回归、随机森林、XGB、贝叶斯,和聚类(高斯混合、KNN)、异常检测(孤立森林、3σ)等机器学习模型,以及特征工程、模型评价等。个人的感觉是只要具备一定的数学基础,一通百通。

3、因果推断。推荐Judea Pearl 的《The Book of Why》,也有中文版。

4、深度学习、大模型、AIGC等。

  • 10
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值