大数据统计分析基础方法

描述性统计

定类尺度(Nominal Level)

  • 定义:根据事物的属性进行平行分类或分组。
  • 例子:性别(男、女),企业所有制(国有、集体、私营)。
  • 特性:计量层次最低,类别间无顺序,可以指定数字代码,只具有等同或不等同的数学特性。
  • 数据表现:表现为类别
  • 分析方法:计算频数。

定序尺度(Ordinal Level)

  • 定义:测度事物之间的等级或顺序差别。
  • 例子:文化程度(大学、高中等),工厂规模(大、中、小)。
  • 特性:比定类尺度精确,可以测度类别和次序差别,但无法测出准确差值。
  • 数据表现:表现为有序类别。
  • 分析方法:排序。

定距尺度(Interval Level)

  • 定义:测度类别或顺序之间的间距。
  • 例子:摄氏温度,地区工人占比。
  • 特性:能区分类型、排序,指出类别间差距,没有绝对零点
  • 数据表现:表现为数值
  • 分析方法加减运算

定比尺度(Ratio Level)

  • 定义:测算两个测度值之间的比值。
  • 例子:年龄,收入,公制距离,重量。
  • 特性具有绝对零点,可以进行加、减、乘、除运算。
  • 数据表现:表现为数值。

四种计量尺度比较

  1. 信息量:信息量依次递增,级别由低到高
  2. 特性包含:高层次尺度包含低层次尺度的特性,反之则不行。
  3. 数据与分析方法:不同尺度数据对应不同的显示和分析方法。

在这里插入图片描述

相关性分析

皮尔逊相关系数 (Pearson Correlation Coefficient)

  • 创立者:卡尔·皮尔逊(Karl Pearson)

  • 定义:衡量两个定距变量间的线性关系。

  • 线性关系特点

    • 两个变量间存在一次方函数关系。
    • 每项(常数项除外)的次数必须是一次的。
    • 常数对是否构成直线关系没有影响。
    • 要求数据符合正态分布或接近正态分布。
    • 数学公式在这里插入图片描述
  • 协方差:反映两个随机变量之间的关系,正协方差表示正相关,负协方差表示负相关。

  • 计算公式:有四种等价公式,涉及数学期望(E)、协方差(cov)、变量取值的个数(N)。

  • 取值范围:-1到1,其中1或-1表示完全正相关或完全负相关,0表示无线性相关。

余弦相似度 (Cosine Similarity)

  • 定义:通过计算两个向量的夹角余弦值来评估它们的相似度。
  • 计算方法余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似
  • 公式在这里插入图片描述
  • 与欧氏距离的比较:余弦距离注重方向上的差异,而欧氏距离注重长度上的差异。

斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient)

  • 提出者:查尔斯·斯皮尔曼 (Charles Spearman),1904年。
  • 性质非参数统计方法,与数据的分布无关
  • 定义:用于衡量两个变量的等级(或排名)之间的相关性
  • 适用情况
    • 适用于称名数据和顺序数据。
    • 适用于具有等级变量性质且可能具有线性关系的资料。
    • 适用于两个连续变量之间的单调关系评估。
斯皮尔曼相关系数的特点
  • 单调关系:变量可能一起变化,但变化速率不必恒定。
  • 数据要求
    • 两个变量的观测值是成对的等级评定资料。
    • 观测值可以是连续变量观测资料转化得到的等级资料。
    • 不论两个变量的总体分布形态(适用于非正态分布数据)、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。
斯皮尔曼相关系数的计算
  • 步骤
    1. 对每个变量的观测值进行排名。
    2. 计算排名差的平方。
    3. 使用以下公式计算斯皮尔曼相关系数:
      在这里插入图片描述
斯皮尔曼相关系数的应用
  • 适用性:特别适用于数据不满足皮尔逊相关系数的正态分布假设时。
  • 解释:相关系数的值范围在 -1 到 1 之间,值越接近极值表示变量间的单调关系越强。
注意事项
  • 斯皮尔曼相关系数只能告诉我们变量之间是否存在单调关系,但它不能告诉我们变化的速率或函数的具体形式。
    在这里插入图片描述

文本相似度计算示例

  1. 分词:将句子分解为单独的词汇。
  2. 列出所有分词:创建一个包含所有独特词汇的列表。
  3. 计算词频:统计每个词汇在句子中出现的次数。
  4. 词频向量:为每个句子创建一个词频向量。
  5. 余弦相似度计算:使用向量的余弦相似度公式计算两个句子的相似度。
    在这里插入图片描述

斯皮尔曼与皮尔逊的比较

  • 范围:两者相关系数的范围都是从 -1 到 +1。
  • 一致性
    • 当变量间存在完全正(或负)的线性关系时,两者的相关系数均为 +1(或 -1)。
    • 当变量间的关系是非线性的单调关系时,斯皮尔曼相关系数可能为 +1 或 -1,而皮尔逊相关系数可能小于 +1 或大于 -1。
  • 敏感性
    • 皮尔逊相关系数异常值更敏感。
    • 斯皮尔曼相关系数对数据的分布形态不敏感

肯德尔相关系数(Kendall’s tau coefficient),

通常用希腊字母 τ(tau)表示,是一种用于度量两个随机变量相关性的统计量。

定义和性质

  • 提出者:Maurice Kendall。
  • 性质无参数假设检验,适用于非正态分布数据。
  • 取值范围:-1 到 1。
    • τ = 1 表示两个随机变量拥有一致的等级相关性;

    • τ = -1 表示两个随机变量拥有完全相反的等级相关性;

    • τ = 0 表示两个随机变量是相互独立的。

计算方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

应用场景

  • 适用于等级评定资料。
  • 适用于两个变量的观测值是连续变量观测资料转化得到的等级资料。
  • 不要求数据遵循特定的分布,适用于数据不符合正态分布或分布未知的情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值