一、业务相关前提知识
1、数据是什么?
数据是人为定义的有用信息,而自然界中被记录下来的人为或非人为所发生的所有事件都为信息。
2、分析的是什么?
分析的主要是数据的内在联系。
环比(二月份)=(二月份销售金额-一月份销售金额)/一月份销售金额
3、怎样进行数据分析?
数据分析的主要流程分为八步:
1)业务理解:(行业背景、市场背景、业务方需求)
在业务分析工作开始之前,首先对此次分析的行业背景、市场情况等信息进行一个充分的理解,明确委托人对于此次分析报告要达成的目的,确定此次分析报告的方向。
2)数据获取:
此次分析需要用到的有用信息。
获取到的数据类型有以下几种方式:
①一手数据:未经人为处理加工过的数据。(收银系统中的销售金额)
②二手数据:经历人为处理加工的数据。(天气预报)
③定性数据:按照某种性质对样本进行描述的数据,定性数据进行加减乘除没有意义。(高矮胖瘦)
④定量数据:按照数值对样本进行描述的数据,定量数据进行加减乘除有意义。(体重:50kg)
⑤连续型数据:数据连续可变,数值分割后还能再次分割。(身高,体重,距离)
⑥离散型数据:数据离散分布,数据分割之后不能再分。(年龄,人数)
⑦文本型数据:以文本来描述一个字段。(性别)
⑧数值型数据:以数字来描述一个字段。(并且数值之间的加减乘除是有意义的)
3)数据理解探索:
主要是针对表中的数据内容进行一个大致的了解:
①了解数据长度(记录行数)、宽度(字段数)
②了解每一个字段里面描述的信息(度量/维度/线索)
度量:数值型数据,加减乘除有意义。
维度:从某一个维度对事物进行定性描述。
线索:可以将所有的度量和维度串联起来,并且解释说明有意义。
4)数据清洗预处理:
在分析过程中可能存在数据不规整的情况,需要我们对数据进行清洗处理,以规整数据方便进行下一步分析。
数据规整包括:
①空值
②不规范数据:性别中通常用男女表示,但是某个单元格用01,0表示,此时1,0所在单元格就是不规范数据。
③非逻辑值:不符合现实逻辑的数据。如:张三年龄25岁,工作年限17年,17年所在单元格就是非逻辑值。
④极大值、极小值、极均值。
5)探索化分析:
拿到数据之后,因为我们不清楚字段间有哪些关系,以及异常点是如何出现的,所以我们需要对得到的数据进行一个全维度的分析,去找到有关系的字段。全维度分析之后还可以进行迭代分析。
6)数据可视化:
在探索化分析结束之后,我们需要在报告中展示数据之间的关系,此时我们使用图表的方式在分析报告中展示出来。
人对数据可视化的接受程度:动态图>静态图> 表格>文字。
7)数据挖掘:
在探索化分析之后,有机会发现一些异常数据。如果想要找出异常数据出现的原因,我们需要进一步地获取相应的信息,进行深入分析有价值的东西,这一个过程就是数据挖掘。
8)模型建立:
在以上七步分析结束后,我们此次的分析过程已经完成,在完成之后对于此次分析中用到的分析方法、分析思路、整体的分析方式进行一个复盘总结,以便于下次遇到相似的需求时,可以直接使用此次的分析过程。这就是模型建立的过程。
4、数据分析在做什么?
1)发现问题
2)解决问题
3)规避问题
①规避已经发生过的问题
②规避可能发生的问题
二、excel操作
快速选择:ctrl+shift按上下左右可快速选择连续数据
维度下拉:ctrl+shift+L
三、项目-商品购物记录
集中趋势分析
四、excel
TEXT函数用于将数值或日期格式化为文本。其语法为:
=TEXT(值, 格式文本)
其中,值表示需要格式化的数值或日期;格式文本则为希望将值格式化为的文本格式。
TEXT函数中格式文本的参数是非常关键的,具体参数如下:
数值格式:
0:将数值格式化为整数,无小数位。
0.00:将数值格式化为含两位小数的数值,且四舍五入。
#,##0:将数值格式化为含千分位分隔符的整数。
#,##0.00:将数值格式化为含千分位分隔符的含两位小数的数值。
0%;:将数值格式化为百分比格式,乘以100并在最后添加百分号。
日期时间格式:
yyyy:将日期格式化为四位数的年份(例如:2021)。
mm:将日期格式化为两位数的月份(例如:07)。
mmm:将日期格式化为缩写的月份名称(例如:Jul)。
mmmm:将日期格式化为月份的全称(例如:July)。
dd:将日期格式化为两位数的日期(例如:01)。
ddd:将日期格式化为缩写的星期几名称(例如:Fri)。
dddd:将日期格式化为星期几的全称(例如:Friday)。
h:将时间格式化为一个数字小时(例如:3)。
hh:将时间格式化为两位数表示的小时(例如:03)。
m:将时间格式化为一个数字表示的分钟(例如:7)。
mm:将时间格式化为两位数表示的分钟(例如:07)。
s:将时间格式化为一个数字表示的秒钟(例如:12)。
ss:将时间格式化为两位数表示的秒钟(例如:12)。
上述只是常用的数值和日期格式化文本,还有很多灵活的带格式化占位符,可以根据需要进行选择。