目录
一、什么是数据分析
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
二、数据分析的目的
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。
三、数据分析的作用
对于数据分析能干什么其实我们可以简单的举几个例子:
1、淘宝可以观察用户的购买记录、搜索记录以及人们在社交媒体上发布的内容选择商品推荐。
2、股票可以根据相应的数据选择买进卖出。
3、今日头条可以将数据分析应用到新闻推送排行算法当中。
4、爱奇艺可以为用户提供个性化电影推荐服务。
其实数据分析不仅可以完成像以上这样的推荐系统,在制药行业也可运用数据分析来预测什么样的化合物更有可能制成高效药物等。
四、为什么利用Python进行数据分析
1、Python的代码语法简单易学
2、Python可以很容易的整合C、C++等语言的代码
3、Python有大量用于科学计算的库
4、Python不仅可以用于研究和原型构建,同时也适用于构建生产系统
五、数据分析过程概述
1、提出问题
在真正的工作场景下,往往我们需要的处理的是多个庞大的数据集还有可能是类型完全不同的数据,那这个时候一个准确的问题就可以让我们聚集与问题相关的那部分数据,为后续的分析操作提供一个明确的方向,帮助我们得到一个有意义的结论。2、整理数据
整理数据主要分为三步:
(1)、收集数据
通过多种途径拿到数据,导入到Jupyter Notebook中
(2)、评估数据
这一步主要是需要找出数据是否存在质量或者结构等方面的问题
(3)、清理数据
通过修改、替换、删除等方式保证数据质量高、结构好
3、探索性数据分析
在这一步骤主要可以探索并且扩充数据
4、得出结论
在进行完探索性数据分析之后肯定会得出一个结果或者说是结论,这样我们就可以根据这样一个结论进行相应的操作,就比如说分析股票数据得到那个大盘趋势好可以选择买进,又或者说类似于万达这样的大型商场可以分析那种类型的商品会比较受用户的欢迎,以便针对性的存货。但是具体的操作可能就需要用到机器学习或者推断统计学来实现,这个就与数据分析不一样了
5、传达结果
分析的能力有多强,分析的价值就有多大。
这一步主要是向其他人证明你发现的见解以及传达意义
六、常用库简介
1、Numpy
Numpy是Numerical Python的简写,主要可以用来做Python数值计算。它提供了多种数据结构、算法以及大部分涉及Python数值计算所需的接口。
快速、高效的多维数组对象ndarray
基于元素的数组计算以及直接对数组执行数学运算的函数
用于读写硬盘上基于数组的数据集的工具
线性代数运算、傅里叶变换,以及随机数生成
用于将C、C++、Fortran代码集成到python的工具
2、Pandas
Pandas使我们进行数据分析的一个主要工具。它所包含的数据结构和数据处理工具的设计使得Python中进行数据清洗和分析非常快捷。pandas一般也是和其他数值计算工具一起使用的,支持大部分Numpy语言风格的数组计算。pandas和numpy最大的区别就是pandas是用来处理表格型或者异质性数据的,而Numpy则刚好相反,它更适合处理同质型的数值类数组数据
3、matplotlib
matplotlib是最流行的用于绘制数据图表的python库。
4、Scipy
Scipy是科学计算领域针对不同标准问题域的包集合。提供了强大的科学计算方法(矩阵分析、信号分析、数理分析等)
5、IPython和Juypyter notebook
IPython是一个加强版的Python解释器,Juypyter notebook是一种基于Web的代码笔记本,最初也是源于IPython项目。
七、数据分析师常用的数据分析方法有哪些?
(一)数据分析方法论
数据分析的方法论很多,这里我给大家介绍一些常见的框架。
1、PEST分析法
PEST 为一种企业所处宏观环境分析模型,从政治(Politics)、经济(Economy)、社会(Society)、技术(Technology)四个方面分析内外环境,适用于宏观分析。
四点因素也被称之为“pest有害物”,PEST要求高级管理层具备相关的能力及素养。PEST分析与外部总体环境的因素互相结合就可归纳出SWOT分析中的机会与威胁。PEST/PESTLE、SWOT 与 SLEPT 可以作为企业与环境分析的基础工具。
2、SWOT分析法
从优势(Strength)、劣势(Weakness)、机遇(Opportunity)、威胁(Threat)四个方面分析内外环境,适用于宏观分析。
SWOT分析法是用来确定企业自身的竞争优势、竞争劣势、机会和威胁,从而将公司的战略与公司内部资源、外部环境有机地结合起来的一种科学的分析方法。运用这种方法,可以对研究对象所处的情景进行全面、系统、准确的研究,从而根据研究结果制定相应的发展战略、计划以及对策等。
3、5W2H分析法
从Why、When、Where、What、Who、How、How much 7个常见的维度分析问题。广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。
4、4P理论
经典营销理论,认为产品(Product)、价格(Price)、渠道(Place)和促销(Promote)是影响市场的重要因素。
5、AARRR
增长黑客的海盗法则,一种以用户为中心的着眼于转化率的漏斗型的数据收集测量模型,从获取(Acquisition)、激活(Activition)、留存(Retention)、收益(Revenue)和推荐(Referral)5个环节增长。
AARRR在应用推广运营各个层次(各个阶段)需要关注的一些指标。在整个AARRR模型中,这些量化指标都具有很重要的地位,而且很多指标的影响力是跨多个层次的。及时准确地获取这些指标的具体数据,对于应用的成功运营是必不可少的。
数据分析的方法论很多,这里不能一一列举;没有最好的方法论,只有最合适的。
从数据分析方法论也可得知,数据分析的意义在于将杂乱无章的数据转化为清晰可见的可视图,从而进行精准决策。“大数据时代,技术和分析哪个更重要”一文中也阐述了分析的重要性。
(二)数据分析的七个方法
1、趋势分析
趋势分析是最简单、最基础,也是最常见的数据监测与数据分析方法。通常我们在数据分析产品中建立一张数据指标的线图或者柱状图,然后持续观察,重点关注异常值。
在这个过程中,我们要选定第一关键指标(OMTM,One Metric That Metter),而不要被虚荣指标(Vanity Metrics )所迷惑。
以社交类APP为例,如果我们将下载量作为第一关键指标,可能就会走偏;因为用户下载APP并不代表他使用了你的产品。在这种情况下,建议将DAU(Daily Active Users,日活跃用户)作为第一关键指标,而且是启动并且执行了某个操作的用户才能算上去;这样的指标才有实际意义,运营人员要核心关注这类指标。
2、多维分解
多维分解是指从业务需求出发,将指标从多个维度进行拆分;这里的维度包括但不限于浏览器、访问来源、操作系统、广告内容等等。
为什么需要进行多维拆解?有时候一个非常笼统或者最终的指标你是看不出什么问题来的,但是进行拆分之后,很多细节问题就会浮现出来。
举个例子,某网站的跳出率是0.47、平均访问深度是4.39、平均访问时长是0.55分钟。如果你要提升用户的参与度,显然这样的数据会让你无从下手;但是你对这些指标进行拆解之后就会发现很多思路。
3、用户分群
用户分群主要有两种分法:维度和行为组合。
第一种根据用户的维度进行分群,比如从地区维度分,有北京、上海、广州、杭州等地的用户;从用户登录平台进行分群,有PC端、平板端和手机移动端用户。
第二种根据用户行为组合进行分群,比如说每周在社区签到3次的用户与每周在社区签到少于3次的用户的区别,这个具体的我会在后面的留存分析中介绍。
4、用户细查
正如前面所说的,用户行为数据也是数据的一种,观察用户在你产品内的行为路径是一种非常直观的分析方法。在用户分群的基础上,一般抽取3-5个用户进行细查,即可覆盖分群用户大部分行为规律。
绝大多数产品都或多或少存在一些反人类的设计或者BUG,通过用户细查可以很好地发现产品中存在的问题并且及时解决。
5、漏斗分析
漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。漏斗分析模型已经广泛应用于网站用户行为分析和APP用户行为分析的流量监控、产品目标转化等日常数据运营与数据分析的工作中。
漏斗分析要注意的两个要点:
第一:不但要看总体的转化率,还要关注转化过程每一步的转化率;
第二:漏斗分析也需要进行多维度拆解,拆解之后可能会发现不同维度下的转化率也有很大差异。
6、留存分析
留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。这是用来衡量产品对用户价值高低的重要方法。
衡量留存的常见指标有:次日留存率、7日留存率、30日留存率等等。
留存分析可以帮助回答以下问题:
一个新客户在未来的一段时间内是否完成了您期许用户完成的行为?如支付订单等;
某个社交产品改进了新注册用户的引导流程,期待改善用户注册后的参与程度,如何验证?
想判断某项产品改动是否奏效,如新增了一个邀请好友的功能,观察是否有人因新增功能而多使用产品几个月?
7、A/B测试与A/A测试
A/B测试是为了达到一个目标,采取了两套方案,一组用户采用A方案,一组用户采用B方案。通过实验观察两组方案的数据效果,判断两组方案的好坏。在A/B测试方面,谷歌是不遗余力地尝试;对于搜索结果的显示,谷歌会制定多种不同的方案(包括文案标题,字体大小,颜色等等),不断来优化搜索结果中广告的点击率。
这里需要注意的一点,A/B测试之前最好有A/A测试或者类似准备。什么是A/A测试?A/A测试是评估两个实验组是否是处于相同的水平,这样A/B测试才有意义。其实这和学校里面的控制变量法、实验组与对照组、双盲试验本质一样的。