stata学习笔记(七):探测异常值及简单图表制作

本文介绍了如何在数据分析中检测异常值,包括使用z得分和箱线图的方法。特别详细地讲解了箱线图的构造步骤,并展示了在Stata中绘制箱线图和散点图的例子。强调了Stata在数据分析中的作用,但可视化结果通常需要进一步导出到其他平台优化呈现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


一  探测异常值

异常值

即一个数据集中包含了不一致的观测值

例如:
一个大学毕业的起薪,22岁左右的4年大学教育的毕业生之间,有一位34岁的回校化学工程学士,

重返大学后又获得了另一专业的学士学位,很明显,这名学生的起始年薪博定比其他学生高很多,

这样的值就是所描述的数据范国之外的不规则的观测值,我们称之为异常值.

两种方法

z得分,箱线图

eg. 某市房价数据

简单查看数据相关值

明显异常值:房价的平均数才87万,最大值却有4000万

计算参考首付z-score

根据切比雪夫法则,不论数据的分布是什么形状,都至少有3/4的测量值落在平均值的两个标准差

内,即z=2,至少有8/9的测量值落在均值的3个标准差范围内

查看描述性指标

 

reeturn函数,范围相关值

设置标量,scalar函数

可以选择把临时的list值保存为标量

list会根据变量的变化而发生改变,如果有多个变量计算的话,则需及时保存

因暂只将price这一个变量进行list,可直接计算

查询异常值

清除异常值

重新查看price数据

数据正常

二  绘制箱线图

箱线图的构造

主要分为3步

  • 以画在下四分位数和上四分位数(QL和QU)的直线为边界画一个方形盒子,在盒子中标出数据的中位数,用直线。
  • 将距离每一关键点1.5倍四分卫距(IQR)处的点标记为数据集的内篱笆,所以四分位数间距IQR就是箱子中的值,也就是75%分位数与25%分位数的距离
  • 第二队篱笆一外篱笆,从关键点3倍的四分卫间距处,一般外篱笆不给出

在stata中绘制箱线图

函数 graph box

  横坐标

eg.  男生女生健康状况评分

复习定义标签及分类描述

graph box score

graph box score,by(sex)

graph hbox score,by(sex) title("男女健康状况统计")

graph hbox score,over(sex) title("男女健康状况统计")

三  简单图标绘制

Stata中的图表绘图

Stata的制图引擎提供了一套制图工具与选项,以非常简单的命令作为执行条件但是,stata并不适

合作为数据可视化,建议可以在stata做数据分析,其表格也是分析结果用,最后的量现可以把结

果数据导出excel然后在其他平台上做可视化

主要的图表类型

直方图、扇形图、条形图、散点图、直线图及数据拟合图

eg.  散点图的绘制

scatter arm leg

scatter arm leg height

查询制作图表相关函数

感谢收看,共勉~

2ce4f93d79bf4e989e664532f7b32f12.jpeg

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值