16、数据分析业务

一、业务相关前提知识

1、数据是什么?

数据是人为定义的有用信息,而自然界中被记录下来的人为或非人为所发生的所有事件都为信息。

2、分析的是什么?

分析的主要是数据的内在联系。

环比(二月份)=(二月份销售金额-一月份销售金额)/一月份销售金额

3、怎样进行数据分析?

数据分析的主要流程分为八步:

1)业务理解:(行业背景、市场背景、业务方需求)

在业务分析工作开始之前,首先对此次分析的行业背景、市场情况等信息进行一个充分的理解,明确委托人对于此次分析报告要达成的目的,确定此次分析报告的方向。

2)数据获取

此次分析需要用到的有用信息。

获取到的数据类型有以下几种方式:

①一手数据:未经人为处理加工过的数据。(收银系统中的销售金额)

②二手数据:经历人为处理加工的数据。(天气预报)

③定性数据:按照某种性质对样本进行描述的数据,定性数据进行加减乘除没有意义。(高矮胖瘦)

④定量数据:按照数值对样本进行描述的数据,定量数据进行加减乘除有意义。(体重:50kg)

⑤连续型数据:数据连续可变,数值分割后还能再次分割。(身高,体重,距离)

⑥离散型数据:数据离散分布,数据分割之后不能再分。(年龄,人数)

⑦文本型数据:以文本来描述一个字段。(性别)

⑧数值型数据:以数字来描述一个字段。(并且数值之间的加减乘除是有意义的)

3)数据理解探索

主要是针对表中的数据内容进行一个大致的了解:

①了解数据长度(记录行数)、宽度(字段数)

②了解每一个字段里面描述的信息(度量/维度/线索)

度量:数值型数据,加减乘除有意义。

维度:从某一个维度对事物进行定性描述。

线索:可以将所有的度量和维度串联起来,并且解释说明有意义。

4)数据清洗预处理

在分析过程中可能存在数据不规整的情况,需要我们对数据进行清洗处理,以规整数据方便进行下一步分析。

数据规整包括:

①空值

②不规范数据:性别中通常用男女表示,但是某个单元格用01,0表示,此时1,0所在单元格就是不规范数据。

③非逻辑值:不符合现实逻辑的数据。如:张三年龄25岁,工作年限17年,17年所在单元格就是非逻辑值。

④极大值、极小值、极均值。

5)探索化分析

拿到数据之后,因为我们不清楚字段间有哪些关系,以及异常点是如何出现的,所以我们需要对得到的数据进行一个全维度的分析,去找到有关系的字段。全维度分析之后还可以进行迭代分析。

6)数据可视化

在探索化分析结束之后,我们需要在报告中展示数据之间的关系,此时我们使用图表的方式在分析报告中展示出来。

人对数据可视化的接受程度:动态图>静态图> 表格>文字。

7)数据挖掘

在探索化分析之后,有机会发现一些异常数据。如果想要找出异常数据出现的原因,我们需要进一步地获取相应的信息,进行深入分析有价值的东西,这一个过程就是数据挖掘。

8)模型建立

在以上七步分析结束后,我们此次的分析过程已经完成,在完成之后对于此次分析中用到的分析方法、分析思路、整体的分析方式进行一个复盘总结,以便于下次遇到相似的需求时,可以直接使用此次的分析过程。这就是模型建立的过程。

4、数据分析在做什么?

1)发现问题

2)解决问题

3)规避问题

①规避已经发生过的问题

②规避可能发生的问题

二、excel操作

快速选择:ctrl+shift按上下左右可快速选择连续数据

维度下拉:ctrl+shift+L

三、项目-商品购物记录

集中趋势分析

四、excel

TEXT函数用于将数值或日期格式化为文本。其语法为:

=TEXT(值, 格式文本)

其中,值表示需要格式化的数值或日期;格式文本则为希望将值格式化为的文本格式。

TEXT函数中格式文本的参数是非常关键的,具体参数如下:

数值格式:

0:将数值格式化为整数,无小数位。

0.00:将数值格式化为含两位小数的数值,且四舍五入。

#,##0:将数值格式化为含千分位分隔符的整数。

#,##0.00:将数值格式化为含千分位分隔符的含两位小数的数值。

0%;:将数值格式化为百分比格式,乘以100并在最后添加百分号。

日期时间格式:

yyyy:将日期格式化为四位数的年份(例如:2021)。

mm:将日期格式化为两位数的月份(例如:07)。

mmm:将日期格式化为缩写的月份名称(例如:Jul)。

mmmm:将日期格式化为月份的全称(例如:July)。

dd:将日期格式化为两位数的日期(例如:01)。

ddd:将日期格式化为缩写的星期几名称(例如:Fri)。

dddd:将日期格式化为星期几的全称(例如:Friday)。

h:将时间格式化为一个数字小时(例如:3)。

hh:将时间格式化为两位数表示的小时(例如:03)。

m:将时间格式化为一个数字表示的分钟(例如:7)。

mm:将时间格式化为两位数表示的分钟(例如:07)。

s:将时间格式化为一个数字表示的秒钟(例如:12)。

ss:将时间格式化为两位数表示的秒钟(例如:12)。

上述只是常用的数值和日期格式化文本,还有很多灵活的带格式化占位符,可以根据需要进行选择。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

风不归Alkaid

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值