纵向数据分析学习笔记-day1

学习途径:应用R语言进行纵向数据分析(一)

一、“纵向数据是分层数据的一种特例,其中观测值嵌套在不同的分层顺序级别中。”举个例子理解

该例出自文心一言

假设我们正在研究一种新药的治疗某一种疾病的效果。我们收集了一组患者的数据,包括他们的年龄、性别、疾病严重程度、药物治疗方案以及在接受治疗后的不同时间点的健康状况。具体数据如下:

患者1:男性,年龄45岁,疾病严重程度为中度,接受药物治疗A,治疗后1个月健康状况为良好,治疗后3个月健康状况为优秀,治疗后6个月健康状况为良好。

患者2:女性,年龄32岁,疾病严重程度为轻度,接受药物治疗B,治疗后1个月健康状况为优秀,治疗后3个月健康状况为良好,治疗后6个月健康状况为优秀。

患者3:男性,年龄51岁,疾病严重程度为重度,接受药物治疗A,治疗后1个月健康状况为良好,治疗后3个月健康状况为优秀,治疗后6个月健康状况为良好。

通过分析这些数据,我们可以得出以下结论:

1. 药物治疗方案对患者的健康状况有影响。接受药物治疗A的患者中,有两位患者的健康状况在不同时间点都得到了改善;而接受药物治疗B的患者则在较早的时间点就已经达到了良好的健康状况。这表明药物治疗A可能比药物治疗B更有效。
2. 年龄和疾病严重程度等因素可能影响了患者对药物的反应。例如,年龄较轻的患者(如患者2)可能在较早的时间点就达到了良好的健康状况;而年龄较大的患者(如患者1和患者3)则需要更长的时间才能改善健康状况。这表明对于不同的患者群体,需要制定不同的治疗方案以达到更好的治疗效果。
3. 治疗效果随时间变化。在每位患者中,健康状况都是在不同的时间点进行观测的,这些观测值的变化趋势可以反映治疗效果的变化情况。例如,在患者1中,随着时间的推移,健康状况逐渐改善;而在患者2和患者3中,虽然初期健康状况较差,但随着时间的推移,健康状况逐渐改善。这表明这种新药物的治疗效果是随着时间的推移而逐渐显现的。

首先,每个患者都可以被视为一个独立的分层。这是因为每个患者都有自己的特性,如年龄、性别、疾病严重程度等,这些因素导致了患者之间的异质性。因此,每个患者的观测值是嵌套在患者这个分层中的。

其次,对于每一个患者,我们在不同的时间点(例如,治疗后1个月、治疗后3个月、治疗后6个月)观测其健康状况,这些时间点也可以被视为一个分层顺序级别。这就是“观测值嵌套在不同的分层顺序级别中”的体现。

因此,在这个例子中,观测值(患者的健康状况)是嵌套在两个不同的分层顺序级别中的:一个是患者层级,另一个是时间点层级。这就是纵向数据分析中的“观测值嵌套在不同的分层顺序级别中”的概念。

二、”重复测量报告为单独的行“理解

如果一个数据被重复测量或记录,那么每一次的测量或记录都将被视为一个独立的行。

比如在医学研究中,如果我们要收集一个患者的多个时间点的血压数据,那么每一个时间点的血压数据都将被视为一个独立的行。如果我们将这些数据输入到表格或数据框中,那么每个时间点的数据都将占据一行。这样做可以方便我们分析和比较不同时间点的数据。

三、cov2cor(cov_obs)

这个函数的作用是将协方差矩阵转换为相关系数矩阵。

  • cov2cor: 这是R语言中的一个函数,用于将协方差矩阵转换为相关系数矩阵。
  • cov_obs: 这是传递给cov2cor函数的参数,代表观察到的协方差矩阵。

在统计学中,协方差矩阵是一种描述一组随机变量之间的协方差关系的矩阵。协方差矩阵的性质反映了各个变量之间的协方差关系。例如,如果协方差矩阵的对角线元素为正,说明该变量与其自身的协方差为正,即该变量存在正向的自相关性;如果对角线元素为负,说明该变量与其自身的协方差为负,即该变量存在负向的自相关性;如果对角线元素接近0,说明该变量与其自身的协方差接近0,即该变量不存在明显的自相关性。协方差的正负性反映了两个变量的变化趋势是否一致。此外,协方差的绝对值大小还可以表示两个变量相关程度的强度,即绝对值越大,两个变量的相关程度越强。

相关系数矩阵则是描述这些变量之间线性关系强度和方向的矩阵。相关系数是一种衡量两个变量之间线性关系强度的指标,其值范围在-1到1之间。相关系数的正负表示两个变量之间的线性关系是正相关还是负相关,而相关系数的绝对值大小则表示了线性关系的强度。在相关系数矩阵中,对角线元素均为1,因为一个变量与其自身的相关系数总是为1。

四、下图怎么看

主对角线:主对角线上的图像是各个变量的直方图(或密度图),用于展示单一变量的分布情况。

下半部分(下三角区域):这部分是散点图矩阵,用于展示两个变量之间的关系。如果你选择了continuous = "smooth",那么对于数值型变量,它还会在散点图上加上一个平滑的拟合曲线,帮助你更好地看出变量间的趋势。

上半部分(上三角区域):这部分展示了两个变量之间的相关性系数(通常是皮尔逊相关系数)以及相关性的显著性水平(p值)。这些数值可以帮助你量化地理解两个变量之间的线性关系强度。

结语:刚开始学,比白纸还要白上三分,不对的地方请指正,有空看我总结这些的大佬,希望可以指导一下我,感激不尽!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值