以下几个指标是出现频次很高的,本人很混淆,也不会用于数据分析案例和解释数据
下文是摘抄网上的便于理解的内容:
变量
1,离散变量,也就是看数字末尾的小数点后面是否有意义,哑变量男女0,1
2,连续变量,小数点后面是数据有意义的就是连续变量, 金额,身高
目前不涉及怎么用,这里就是概念
- 引入一个例子说明方差和标准差,分别说明什么问题
- *方差告诉我们差异大小分散程度(结合下面散点图片也就是差异图形的求和)
- 标准差(平均每个人的差异的距离)*
方差,标准差
- 量化数字的相似性即「集中趋势量数」(measures of central tendency),包括平均数、中位数和众数;
- 量化数字的差异即「差异量数」(measures of variability),包括方差和标准差。
案例1:
这里平均数4.75
我们的目标是计算数字之间的差异,以及数字与平均值之间的差异
我们无法计算所有差异的总和。因为一些差异是正值,一些是负值,求和会使正负抵消得到 0。为此,我们对差异取平方(稍后我会解释为什么取平方而不是其他运算,如取绝对值)。也就是面积的求和
现在,我们来计算差异平方的总和(即平方和):
大正方形的面积等于 67.5 points^2 相当月67.5( ㎡ 还是平方厘米不清楚 单位是省略的所以这里points意义是这个)
方差就是总面积差额的平均一个面积,但是面积不便于比较于是用了标准差反应数据组内波动差异。
于是:
方差越大,数据分布广泛,差异更大
标准差也可以反映数据的分布情况,但是它并不能直接反映出数据的差异性大小