1、初识数据分析
1.1 数据分析的概念
广义的数据分析包括狭义数据分析和数据挖掘
狭义的数据分析是指根据分析的目的,采用对比分析、分组分析、交叉分析和回归分析等方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。
数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术、挖掘潜在价值的过程。
1.2 数据分析的流程
典型数据分析的流程如下:
- 需求分析: 是数据分析环节的第一步和最重要的步骤之一,决定了后续的分析的方向、方法;
- 数据获取: 是数据分析工作的基础,是指根据需求分析的结果提取、收集数据;
- 数据预处理: 是指对数据进行数据合并,数据清洗,数据变换和数据标准化,数据变换后使得整体数据变为干净整齐,可以直接用于分析建模这一过程的总称;
- 分析与建模: 是指通过对比分析、分组分析、交叉分析、回归分析等分析方法和聚类、分类、关联规则、智能推荐等模型与算法发现数据中的有价值信息,并得出结论的过程;
- 模型评价与优化: 是指对已建立的一个或多个模型,根据其模型类别,使用不同的指标评价其优劣的过程;
- 部署: 是指将通过了正式应用数据分析结果与结论应用至实际生产的过程。
2、数据分析应用场景
2.1 营销分析
- 产品分析: 主要是竞品分析,通过对竞争产品的分析制定自身产品策略;
- 价格分析: 又可以分为成本分析和售价分析,成本分析的目的是降低不必要成本;售价分析的目的是制定符合市场的价格;
- 渠道分析: 目的是指对产品的销售渠道进行分析,确定最优的渠道 配比;
- 广告与促销分析: 则能够结合客户分析,实现销量的提升,利润的增长。
2.2 社交媒体分析
以不同社交媒体渠道生成的内容为基础,实现不同社交媒体的用户分析、访问分析、互动分析等。同时还能为情感和舆论监督提供丰富的资料。
- 用户分析: 主要根据用户注册信息,登录平台的时间点和平时发表的内容等用户数据,分析用户个人画像和行为特征;
- 访问分析: 则是通过用户平时访问的内容,分析用户的兴趣爱好,进而分析潜在的商业价值;
- 互动分析: 根据互动关注对象的行为预测该对象未来的某些行为特征。
2.3 网络安全
新型的病毒防御系统可以使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的模式,做到未雨绸缪。
2.4 设备管理
通过物联网技术能够收集和分析设备上的数据流,包括连续用电、零部件温度、环境湿度和污染物颗粒等无数潜在特征,建立设备管理模型,从而预测设备故障,合理安排预防性的维护,以确保设备正常作业,降低因设备故障带来的安全风险。
3、数据分析常用工具
R | Python | MATLAB | |
---|---|---|---|
语言学习难易程度 | 入门难度低 | 入门难度一般 | 入门难度一般 |
使用场景 | 数据分析,数据挖掘,机器学习,数据可视化等。 | 数据分析,机器学习,矩阵运算,科学数据可视化,数字图像处理,web应用,网络爬虫,系统运维等。 | 矩阵计算,数值分析,科学数据可视化,机器学习,符号计算,数字图像处理,数字信号处理,仿真模拟等。 |
第三方支持 | 拥有大量的Packages,能够调用C,C++,Fortran,Java等其他程序语言。 | 拥有大量的第三方库,能够简便地调用C,C++,Fortran,Java等其他程序语言。 | 拥有大量专业的工具箱,在新版本中加入了对C,C++,Java的支持。 |
流行领域 | 工业界≈学术界 | 工业界>学术界 | 工业界≤学术界 |
软件成本 | 开源免费 | 开源免费 | 商业收费 |
3.1 Python数据分析常用类库
3.1.1 IPython——科学计算标准工具集的组成部分
- 是一个增强的Python shell,目的是提高编写、测试、调试Python代码的速度;
- 用于交互式数据并行处理,是分布式计算的基础架构。
3.1.2 NumPy(Numerical Python)—— Python 科学计算的基础包
- 快速高效的多维数组对象 ndarray;
- 对数组执行元素级的计算以及直接对数组执行数学运算的函数;
- 读写硬盘上基于数组的数据集的工具;
- 线性代数运算、傅里叶变换,以及随机数生成的功能;
- 将 C、C++、Fortran 代码集成到 Python 的工具。
3.1.3 SciPy——专门解决科学计算中各种标准问题域的模块的集合
SciPy主要包含了 8 个模块,不同的子模块有不同的应用,如插值、积分、优化、图像处理和特殊函数等。
- scipy.integrate:数值积分例程和微分方程求解器;
- scipy.linalg:扩展了由 numpy.linalg提供的线性代数例程和矩阵分解功能;
- scipy.optimize:函数优化器(最小化器)以及根查找算法。
3.1.4 Pandas——数据分析核心库
- 提供了一系列便捷地处理结构化数据的数据结构和函数;
- 高性能的数组计算功能以及电子表格和关系型数据库(如 SQL)灵活的数据处理功能;
- 复杂精细的索引功能,以便便捷地完成重塑、切片和切块、聚合及选取数据子集等操作。
3.1.5 Matplotlib——绘制数据图表的 Python 库
- Python的2D绘图库,非常适合创建出版物上用的图表;
- pyplot模块中许多常用的函数,方便用户快速进行计算和绘图;
- 交互式的数据绘图环境,绘制的图表也是交互式的。
3.1.6 scikit-learn——数据挖掘和数据分析工具
- 简单有效,可以供用户在各种环境下重复使用;
- 封装了一些常用的算法方法;
- 基本模块主要有数据预处理、模型选择、分类、聚类、数据降维和回归 6 个,在数据量不大的情况下,scikit-learn可以解决大部分问题。
3.1.7 Spyder——交互式 Python 语言开发环境
- 提供高级的代码编辑、交互测试和调试等特性;
- 包含数值计算环境;
- 可用于将调试控制台直接集成到图形用户界面的布局中;
- 模仿MATLAB的“工作空间”,可以很方便地观察和修改数组的值。
4、数据分析常用方法
4.1 拆解方法
4.1.1 流程拆解法
流程法就是按照事情发展的时间、流程、顺序,对过程进行逐一的拆解。
如:进行拆解用户购买商品的流程环节:看到广告–>点进商品–>点击购买–>完成支付–>订单量下降
类似于漏斗分析法,是一套流程分析,适用于流程长,环节较多,并且随着环节的进行,留存率越来越少的场景。
4.1.2 二分法
非常常见的一种方法,就是把事物分成A和非A两个部分,如“白天,黑夜”,“内部、外部”等等
4.1.3 象限拆解法
通过横纵坐标,将所要分析的内容分成四个象限,由高到低进行分析。
1.有利于找到问题的共性原因:通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。
2.建立分组优化策略:针对投放的象限分析法,可以针对不同象限建立优化策略。
4.1.4 杜邦分析法
利用几种主要的之间的关系来综合地分析企业的财务状况。
公式:ROE=净资产利润率_权益乘数_资产周转率
4.2 模型
4.2.1 AARRR
AARRR是一个用于研究用户增长的数据分析模型,是Acquisition、Activation、Retention、Revenue、Refer,这五个单词的缩写,分别对应用户生命周期中的用户获取、用户激活、用户存留、获得收益、推荐传播这五个环节。
用户获取(Acquisition)
运营一款移动应用的第一步,毫无疑问是获取用户,也就是大家通常所说的推广。如果没有用户,就谈不上运营。
用户激活(Activation)
很多用户可能是通过终端预置、广告等不同的渠道进入应用的,这些用户是被动地进入应用的。如何把他们转化为活跃用户,是运营者面账的第一个问题。
用户留存(Retention)
有些应用在解决了活跃度的问题以后,又发现了另一个问题:“用户来得快、走得也快”。有时候我们也说是这款应用没有用户粘性。
获得收益(Revenue)
获取收入其实是应用运营最核心的一块。极少有人开发一款应用只是纯粹出于兴趣,绝大多数开发者最关心的就是收入。即使是免费应用.也应该有其盈利的模式。
推荐传播(Referral)
以前的运营模型到第四个层次就结束了,但是社交网络的兴起,使得运营增加了一个方面,就是基于社交网络的病毒式传播,这已经成为头取用户的一个新途径。这个方式的成本很低,而且效果有可能非常好;唯一的前提是产品自身要足够好,有很好的口碑。
从自传播到再次获取新用户,应用运营形成了一个螺旋式上升的轨道。而那些优秀的应用就很好地利用了这个轨道,不断扩大自己的用户群体。
4.2.2 PEST
PEST分析法就是,从政治(Politics)、经济(Economic)、社会(Society)、技术(Technology)四个方面,基于公司战略的眼光来分析企业外部宏观环境的一种方法,公司战略的制定离不开宏观环境,而PEST分析法能从各个方面比较好的把握宏观环境的现状及变化的趋势,有利于企业对生存发展的机会加以利用,对环境可能带来的威胁及早发现避开。
政治环境(Politics):
是指一个国家或地区的政治制度,体制,方针政策,法律法规等方面,这些因素常常影响着企业的经营行为,尤其是对企业长期额度投资行为有着较大的影响。
经济环境(Economic):
指企业在制定战略过程中须考虑的国内外经济条件,宏观经济政策,经济发展水平等多种因素。
社会环境(Society):
主要指组织所在社会中成员的民族特征,文化传统,价值观念,宗教信仰,教育水平以及风俗习惯等因素。
技术环境(Technology):
是指企业业务所涉及国家和地区的技术水平,技术政策,新产品开发能力以及技术发展的动态等。
4.2.3 RFM
- RFM是指根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法。
对于一个新上线产品的前期运营,我们一般的做法都是做活动、上新品、蹭热点、做营销、不断地去拓展新的客户。但是这种做法收效却不容乐观,真正获取的用户没有几个,最终都便宜了羊毛党。其实客户在不同阶段的需求是不一样的,有的客户图便宜,有的客户看新品,有的客户重服务。所以我们想要运营好一个产品,就需要对客户精细化运营。
指标 | 解释 | 意义 |
---|---|---|
R(Recency)进度 | 客户最近一次交易时间的间隔 | R越大,表示客户越久未发生交易; |
R越小,表示客户越近有交易发生。 | ||
F(Frequency)频度 | 客户在最近一段时间内交易的次数 | F越大,表示客户交易越频繁; |
F越小,表示客户不够活跃。 | ||
M(Monetary)额度 | 客户在最近一段时间被交易的金额 | M越大,表示客户价值越高; |
M越小,表示客户价值越低。 |
4.2.4 SWOT
SWOT分析法代表企业优势(strength)、劣势(weakness)、机会(opportunity)和威胁(threats)。因此,SWOT分析实际上是将对企业内部外条件各方面进行综合和概括,进而分析组织的优劣势,面临的机会和威胁的一种方法,可以通过分析帮助企业把资源和行动集中在自己的强项和有最多机会的地方。
4.2.5 5W1T
Who(分析谁) 确定主题
Where(取哪里的数据)进行数据集成
When(取什么时间段的数据)
What(用什么分析方法)
Why (什么原因导致的)
How (如何呈现最终结果)
补充:5W2H
why (何因)——为什么?为什么要这么做?原因是什么?what(何事)——是什么?目的是什么?
where(何处)——何处?从哪里来?到哪里去?when(何时)——何时?什么时间完成?
who (何人)——谁来执行?谁来负责?谁来管理?how——怎么做?如何提高效率?如何实施?
how much——做多少?做到何种程度?数量、质量如何
我的博客: http://180.76.231.251/