stata学习笔记(七):探测异常值及简单图表制作


一  探测异常值

异常值

即一个数据集中包含了不一致的观测值

例如:
一个大学毕业的起薪,22岁左右的4年大学教育的毕业生之间,有一位34岁的回校化学工程学士,

重返大学后又获得了另一专业的学士学位,很明显,这名学生的起始年薪博定比其他学生高很多,

这样的值就是所描述的数据范国之外的不规则的观测值,我们称之为异常值.

两种方法

z得分,箱线图

eg. 某市房价数据

简单查看数据相关值

明显异常值:房价的平均数才87万,最大值却有4000万

计算参考首付z-score

根据切比雪夫法则,不论数据的分布是什么形状,都至少有3/4的测量值落在平均值的两个标准差

内,即z=2,至少有8/9的测量值落在均值的3个标准差范围内

查看描述性指标

 

reeturn函数,范围相关值

设置标量,scalar函数

可以选择把临时的list值保存为标量

list会根据变量的变化而发生改变,如果有多个变量计算的话,则需及时保存

因暂只将price这一个变量进行list,可直接计算

查询异常值

清除异常值

重新查看price数据

数据正常

二  绘制箱线图

箱线图的构造

主要分为3步

  • 以画在下四分位数和上四分位数(QL和QU)的直线为边界画一个方形盒子,在盒子中标出数据的中位数,用直线。
  • 将距离每一关键点1.5倍四分卫距(IQR)处的点标记为数据集的内篱笆,所以四分位数间距IQR就是箱子中的值,也就是75%分位数与25%分位数的距离
  • 第二队篱笆一外篱笆,从关键点3倍的四分卫间距处,一般外篱笆不给出

在stata中绘制箱线图

函数 graph box

  横坐标

eg.  男生女生健康状况评分

复习定义标签及分类描述

graph box score

graph box score,by(sex)

graph hbox score,by(sex) title("男女健康状况统计")

graph hbox score,over(sex) title("男女健康状况统计")

三  简单图标绘制

Stata中的图表绘图

Stata的制图引擎提供了一套制图工具与选项,以非常简单的命令作为执行条件但是,stata并不适

合作为数据可视化,建议可以在stata做数据分析,其表格也是分析结果用,最后的量现可以把结

果数据导出excel然后在其他平台上做可视化

主要的图表类型

直方图、扇形图、条形图、散点图、直线图及数据拟合图

eg.  散点图的绘制

scatter arm leg

scatter arm leg height

查询制作图表相关函数

感谢收看,共勉~

2ce4f93d79bf4e989e664532f7b32f12.jpeg

  • 22
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
在使用Stata进行异常值检验时,可以按照以下步骤进行操作: 1. 导入数据:首先,使用命令`use`或者`import`将数据导入Stata软件。 2. 查看数据:可以使用`browse`命令或者点击数据集菜单来查看数据的内容,这样可以对数据有一个初步的了解。 3. 创建变量:根据需求,可以使用`gen`命令创建新变量来进行异常值检验,例如计算变量的标准分数或者离群值标志。 4. 描述统计:使用`summarize`命令,对变量进行描述性统计分析,例如计算均值、标准差、最小值、最大值等,以便对数据的分布有一个初步了解。 5. 绘制直方图:可以使用`histogram`命令绘制变量的直方图,从直方图可以判断数据是否存在离群值或者异常值。 6. 绘制箱线图:使用`graph box`命令绘制箱线图箱线图可以直观地显示变量的分布情况,包括中位数、上下四分位数以及离群值。 7. 进行异常值检验:可以采用统计检验方法,例如使用Grubbs检验或Dixon-Q检验来判断数据中是否存在异常值。 8. 处理异常值:如果发现了异常值,可以采取相应的处理方法,例如删除异常值或者将其替换为缺失值。 9. 重新检验:完成异常值处理后,可以对数据再次进行异常值检验,以确认处理效果。 10. 导出数据:最后,可以使用`export`命令将处理后的数据导出。 以上就是使用Stata进行异常值检验的一般步骤,具体的操作和命令可以根据数据的情况和需要进行调整。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值