一 探测异常值
异常值
即一个数据集中包含了不一致的观测值
例如:
一个大学毕业的起薪,22岁左右的4年大学教育的毕业生之间,有一位34岁的回校化学工程学士,
重返大学后又获得了另一专业的学士学位,很明显,这名学生的起始年薪博定比其他学生高很多,
这样的值就是所描述的数据范国之外的不规则的观测值,我们称之为异常值.
两种方法
z得分,箱线图
eg. 某市房价数据
简单查看数据相关值
明显异常值:房价的平均数才87万,最大值却有4000万
计算参考首付z-score
根据切比雪夫法则,不论数据的分布是什么形状,都至少有3/4的测量值落在平均值的两个标准差
内,即z=2,至少有8/9的测量值落在均值的3个标准差范围内
查看描述性指标
reeturn函数,范围相关值
设置标量,scalar函数
可以选择把临时的list值保存为标量
list会根据变量的变化而发生改变,如果有多个变量计算的话,则需及时保存
因暂只将price这一个变量进行list,可直接计算
查询异常值
清除异常值
重新查看price数据
数据正常
二 绘制箱线图
箱线图的构造
主要分为3步
- 以画在下四分位数和上四分位数(QL和QU)的直线为边界画一个方形盒子,在盒子中标出数据的中位数,用直线。
- 将距离每一关键点1.5倍四分卫距(IQR)处的点标记为数据集的内篱笆,所以四分位数间距IQR就是箱子中的值,也就是75%分位数与25%分位数的距离
- 第二队篱笆一外篱笆,从关键点3倍的四分卫间距处,一般外篱笆不给出
在stata中绘制箱线图
函数 graph box
横坐标
eg. 男生女生健康状况评分
复习定义标签及分类描述
graph box score
graph box score,by(sex)
graph hbox score,by(sex) title("男女健康状况统计")
graph hbox score,over(sex) title("男女健康状况统计")
三 简单图标绘制
Stata中的图表绘图
Stata的制图引擎提供了一套制图工具与选项,以非常简单的命令作为执行条件但是,stata并不适
合作为数据可视化,建议可以在stata做数据分析,其表格也是分析结果用,最后的量现可以把结
果数据导出excel然后在其他平台上做可视化
主要的图表类型
直方图、扇形图、条形图、散点图、直线图及数据拟合图
eg. 散点图的绘制
scatter arm leg
scatter arm leg height
查询制作图表相关函数