描述性分析
导读
楼主本人统计学专业在读,这几年也完成了不少数据分析的报告,故而想整理一点写数据类报告的tips。本文先整理了对一份数据进行描述性分析的流程。包括变量说明和利用平均数、方差、偏度峰度等基本统计量进行解读的思路。
一、数据报告
一般来说一份数据报告要包含研究目的、描述性分析、特征工程、建模分析、模型检验、模型对比的过程,最后需要加上最重要的结论和建议。其中数据处理的第一步就是描述性分析。
有人说不知道描述性分析该描述什么,好像没什么可写。我的理解是,对读者而言,描述性分析其实就是在最开始给读者呈现对数据的初步观察,让其产生对数据的初印象,而建立模型的过程等于深挖这份数据集的特点;对个人而言,我们可以通过描述性分析发现特征的特点,从而对特征进行一些变换和处理,接下来再根据发现的数据特点以及研究目标去选用合适的模型。描述性分析的过程不该太长,以免喧宾夺主,应该指出重点的发现,并且尽量简单直白。接下来将对描述性分析的流程进行梳理,代码部分利用R语言实现
二、变量说明表
数据集包含哪些内容?拿到一份数据首先要解决的就是这个问题。通常我们见到的csv格式的数据,都是以数据框形式存在,每一列都是代表一项特征,所以不妨先拿出头几行数据进行观察。这次用的例子是来自狗熊会(公众号:CluBear)的数据集,是二手市场上在售的1289条的汽车的10项指标数据,数据是前几年的,自变量包括汽车描述,排量,性能,级别,车门,车座,马力,发动机和前制动类型等10个变量,那么我们关心的变量是什么呢?这就是数据报告的目的性,本次设定因变量为汽车的价格,探究汽车价格的关键影响指标。下面可以先展示一下数据集的前几行。
描述 | 价格 | 排量 | 性能 | 级别 | 车门 | 车座 | 马力 | 发动机 | 前制动类型 |
---|---|---|---|---|---|---|---|---|---|
奥迪Q3 2017款 30 TFSI 时尚型 | 20.6 | 1.4 | 自动 | 紧凑型 | 5 | 5 | 88 | L4 | 通风盘式 |
川汽野马F10 2011款 1.5L 手动 | 2.1 | 1.5 | 手动 | 小型 | 5 | 5 | 88 | L4 | 盘式 |
丰田汉兰达 2015款 2.0T 四驱豪华版 7座 | 27.8 | 2 | 自动 | 中型 | 5 | 7 | 220 | L4 | 通风盘式 |
奥迪Q5 2013款 40 TFSI 进取型 | 27.88 | 2 | 自动 | 中型 | 5 | 5 | 211 | L4 | 通风盘式 |
这样一份关于市场上汽车特征的数据集,对于不了解汽车的人来说,每个数值代表的含义就不够明确,比如价格20万元是高还是低呢?级别又代表什么含义?紧凑型比小型大还是小?前制动类型没听说过,什么意思等等。所以为了解释数据,我们需要对这些变量(或特征)进行一个说明。
变量说明表一般包含变量名、变量说明和取值范围这几个关键因素,变量名称很多时候数据集会以英文命名,所以就需要一个简要说明,对于数值型变量,可以介绍单位;对于类别变量,列出类别数。那么取值范围里面就可以把类别大致写一下,比如级别为大型的汽车就没有出现在前面展示的数据里,所以有必要在取值范围中出现。整理好后就可以看出前制动类型不止有通风盘式还有盘式,级别不仅有紧凑型还有大型。
下面视情况可以再添加一些备注,备注可以对比较难以理解的变量进行解释,比如级别指的含义其实就是空间大小,或者是展示简单统计信息,如各类型样本的占比等。
变量类型 | 变量名 | 详细说明 | 取值范围 | 备注 |
---|---|---|---|---|
因变量 | 在售价格 | 单位:万元 | 1.3~280.0 | |
自变量 | 描述</ |