数据分析报告——经典统计量的描述性分析:平均数方差、偏度峰度

导读
楼主本人统计学专业在读,这几年也完成了不少数据分析的报告,故而想整理一点写数据类报告的tips。本文先整理了对一份数据进行描述性分析的流程。包括变量说明和利用平均数、方差、偏度峰度等基本统计量进行解读的思路。

一、数据报告

一般来说一份数据报告要包含研究目的、描述性分析、特征工程、建模分析、模型检验、模型对比的过程,最后需要加上最重要的结论和建议。其中数据处理的第一步就是描述性分析。

研究目的
描述性分析
特征工程
建立模型与解读
模型检验和效果对比
结论和建议

有人说不知道描述性分析该描述什么,好像没什么可写。我的理解是,对读者而言,描述性分析其实就是在最开始给读者呈现对数据的初步观察,让其产生对数据的初印象,而建立模型的过程等于深挖这份数据集的特点;对个人而言,我们可以通过描述性分析发现特征的特点,从而对特征进行一些变换和处理,接下来再根据发现的数据特点以及研究目标去选用合适的模型。描述性分析的过程不该太长,以免喧宾夺主,应该指出重点的发现,并且尽量简单直白。接下来将对描述性分析的流程进行梳理,代码部分利用R语言实现

描述性分析
变量说明
单变量统计量描述
单变量统计图表
多变量描述

二、变量说明表

数据集包含哪些内容?拿到一份数据首先要解决的就是这个问题。通常我们见到的csv格式的数据,都是以数据框形式存在,每一列都是代表一项特征,所以不妨先拿出头几行数据进行观察。这次用的例子是来自狗熊会(公众号:CluBear)的数据集,是二手市场上在售的1289条的汽车的10项指标数据,数据是前几年的,自变量包括汽车描述,排量,性能,级别,车门,车座,马力,发动机和前制动类型等10个变量,那么我们关心的变量是什么呢?这就是数据报告的目的性,本次设定因变量为汽车的价格,探究汽车价格的关键影响指标。下面可以先展示一下数据集的前几行。

描述 价格 排量 性能 级别 车门 车座 马力 发动机 前制动类型
奥迪Q3 2017款 30 TFSI 时尚型 20.6 1.4 自动 紧凑型 5 5 88 L4 通风盘式
川汽野马F10 2011款 1.5L 手动 2.1 1.5 手动 小型 5 5 88 L4 盘式
丰田汉兰达 2015款 2.0T 四驱豪华版 7座 27.8 2 自动 中型 5 7 220 L4 通风盘式
奥迪Q5 2013款 40 TFSI 进取型 27.88 2 自动 中型 5 5 211 L4 通风盘式

这样一份关于市场上汽车特征的数据集,对于不了解汽车的人来说,每个数值代表的含义就不够明确,比如价格20万元是高还是低呢?级别又代表什么含义?紧凑型比小型大还是小?前制动类型没听说过,什么意思等等。所以为了解释数据,我们需要对这些变量(或特征)进行一个说明。

变量说明表一般包含变量名、变量说明和取值范围这几个关键因素,变量名称很多时候数据集会以英文命名,所以就需要一个简要说明,对于数值型变量,可以介绍单位;对于类别变量,列出类别数。那么取值范围里面就可以把类别大致写一下,比如级别为大型的汽车就没有出现在前面展示的数据里,所以有必要在取值范围中出现。整理好后就可以看出前制动类型不止有通风盘式还有盘式,级别不仅有紧凑型还有大型。

下面视情况可以再添加一些备注,备注可以对比较难以理解的变量进行解释,比如级别指的含义其实就是空间大小,或者是展示简单统计信息,如各类型样本的占比等。

变量类型 变量名 详细说明 取值范围 备注
因变量 在售价格 单位:万元 1.3~280.0
自变量 描述
  • 11
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值