描述性统计
定类尺度(Nominal Level)
- 定义:根据事物的属性进行平行分类或分组。
- 例子:性别(男、女),企业所有制(国有、集体、私营)。
- 特性:计量层次最低,类别间无顺序,可以指定数字代码,只具有等同或不等同的数学特性。
- 数据表现:表现为类别。
- 分析方法:计算频数。
定序尺度(Ordinal Level)
- 定义:测度事物之间的等级或顺序差别。
- 例子:文化程度(大学、高中等),工厂规模(大、中、小)。
- 特性:比定类尺度精确,可以测度类别和次序差别,但无法测出准确差值。
- 数据表现:表现为有序类别。
- 分析方法:排序。
定距尺度(Interval Level)
- 定义:测度类别或顺序之间的间距。
- 例子:摄氏温度,地区工人占比。
- 特性:能区分类型、排序,指出类别间差距,没有绝对零点。
- 数据表现:表现为数值。
- 分析方法:加减运算。
定比尺度(Ratio Level)
- 定义:测算两个测度值之间的比值。
- 例子:年龄,收入,公制距离,重量。
- 特性:具有绝对零点,可以进行加、减、乘、除运算。
- 数据表现:表现为数值。
四种计量尺度比较
- 信息量:信息量依次递增,级别由低到高。
- 特性包含:高层次尺度包含低层次尺度的特性,反之则不行。
- 数据与分析方法:不同尺度数据对应不同的显示和分析方法。
相关性分析
皮尔逊相关系数 (Pearson Correlation Coefficient)
-
创立者:卡尔·皮尔逊(Karl Pearson)
-
定义:衡量两个定距变量间的线性关系。
-
线性关系特点:
- 两个变量间存在一次方函数关系。
- 每项(常数项除外)的次数必须是一次的。
- 常数对是否构成直线关系没有影响。
- 要求数据符合正态分布或接近正态分布。
- 数学公式
-
协方差:反映两个随机变量之间的关系,正协方差表示正相关,负协方差表示负相关。
-
计算公式:有四种等价公式,涉及数学期望(E)、协方差(cov)、变量取值的个数(N)。
-
取值范围:-1到1,其中1或-1表示完全正相关或完全负相关,0表示无线性相关。
余弦相似度 (Cosine Similarity)
- 定义:通过计算两个向量的夹角余弦值来评估它们的相似度。
- 计算方法:余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似
- 公式:
- 与欧氏距离的比较:余弦距离注重方向上的差异,而欧氏距离注重长度上的差异。
斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient)
- 提出者:查尔斯·斯皮尔曼 (Charles Spearman),1904年。
- 性质:非参数统计方法,与数据的分布无关。
- 定义:用于衡量两个变量的等级(或排名)之间的相关性。
- 适用情况:
- 适用于称名数据和顺序数据。
- 适用于具有等级变量性质且可能具有线性关系的资料。
- 适用于两个连续变量之间的单调关系评估。
斯皮尔曼相关系数的特点
- 单调关系:变量可能一起变化,但变化速率不必恒定。
- 数据要求:
- 两个变量的观测值是成对的等级评定资料。
- 观测值可以是连续变量观测资料转化得到的等级资料。
- 不论两个变量的总体分布形态(适用于非正态分布数据)、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。
斯皮尔曼相关系数的计算
- 步骤:
- 对每个变量的观测值进行排名。
- 计算排名差的平方。
- 使用以下公式计算斯皮尔曼相关系数:
斯皮尔曼相关系数的应用
- 适用性:特别适用于数据不满足皮尔逊相关系数的正态分布假设时。
- 解释:相关系数的值范围在 -1 到 1 之间,值越接近极值表示变量间的单调关系越强。
注意事项
- 斯皮尔曼相关系数只能告诉我们变量之间是否存在单调关系,但它不能告诉我们变化的速率或函数的具体形式。
文本相似度计算示例
- 分词:将句子分解为单独的词汇。
- 列出所有分词:创建一个包含所有独特词汇的列表。
- 计算词频:统计每个词汇在句子中出现的次数。
- 词频向量:为每个句子创建一个词频向量。
- 余弦相似度计算:使用向量的余弦相似度公式计算两个句子的相似度。
斯皮尔曼与皮尔逊的比较
- 范围:两者相关系数的范围都是从 -1 到 +1。
- 一致性:
- 当变量间存在完全正(或负)的线性关系时,两者的相关系数均为 +1(或 -1)。
- 当变量间的关系是非线性的单调关系时,斯皮尔曼相关系数可能为 +1 或 -1,而皮尔逊相关系数可能小于 +1 或大于 -1。
- 敏感性:
- 皮尔逊相关系数对异常值更敏感。
- 斯皮尔曼相关系数对数据的分布形态不敏感。
肯德尔相关系数(Kendall’s tau coefficient),
通常用希腊字母 τ(tau)表示,是一种用于度量两个随机变量相关性的统计量。
定义和性质:
- 提出者:Maurice Kendall。
- 性质:无参数假设检验,适用于非正态分布数据。
- 取值范围:-1 到 1。
-
τ = 1 表示两个随机变量拥有一致的等级相关性;
-
τ = -1 表示两个随机变量拥有完全相反的等级相关性;
-
τ = 0 表示两个随机变量是相互独立的。
-
计算方法
应用场景:
- 适用于等级评定资料。
- 适用于两个变量的观测值是连续变量观测资料转化得到的等级资料。
- 不要求数据遵循特定的分布,适用于数据不符合正态分布或分布未知的情况。