自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 R语言:单因素方差分析及两两比较

多组独立连续变量的比较分析方法介绍

2023-09-05 11:42:15 1058 1

原创 利用R语言把纵向数据变成横向数据并给新变量重命名

临床研究中,常用EDC系统收集数据。一般导出的数据都是纵向数据,但纵向数据对于广大的临床医生来说并不友好。往往需要手动把纵向数据变为横向数据才能进行数据分析。不仅费时费力,而且容易出现复制粘贴错误。

2023-04-24 18:37:51 1251 1

原创 R语言中两种筛选数据文件中不固定个数的最大几个数据的方法

最近做数据处理中遇到了一个筛选数据的问题。有两个数据文件,一个是原始数据文件,每个ID有多条数据,总共有10w条数据;另一个文件是需要挑选的每个ID 对应的数据个数(例如ID为A0001需要挑选5条,A0002需要挑选10条……),需要挑选第一个文件中每个ID最大的前几个数据,总计2万条。

2023-02-24 11:30:34 1004

原创 【无标题】R语言对100列字符串进行串联拼接合并

在运用R语言对于较少列数据进行合并时,执行代码较简单运用paste()函数进行拼接即可。当列数较多时,例如100列数据进行拼接合并成一列,再采取上述代码模式书写代码就太冗长了。可以采用循环语句进行执行字段拼接。for()语句执行纵向顺序,内嵌while语句执行每一行的多个字段的数据拼接。...

2022-08-02 14:25:55 1683

原创 浅谈临床研究中随机化

无论是药企发起的注册临床研究亦或是研究者发起的IIT研究,当涉及到对患者进行不同干预措施时,不可能完全避免研究对象之间的差异,为保证组间均衡性,提高研究的真实性,控制偏倚,就要采用随机化的手段把研究对象随机分配到不同的研究组,尽可能避免研究者或者研究对象主观愿望或者客观因素的影响,使得研究结果具有良好的可比性。 临床研究中,常用的随机化方法主要有四类:简单随机法、区组随机法、分层随机法、动态随机法。...

2022-06-16 10:38:13 3701

原创 医学研究中的偏倚及其控制

在进行流行病学研究中,不论采用何种研究方法,都是采用样本来推断总体。有许多因素会影响其准确性使研究结果与真实情况发生偏差。引起偏差的原因包括两个方面,一是随机误差,二是系统误差。其中随机误差是由个体差异、抽样和其他未知原因引起的随机性误差,是无法避免的误差,但可以通过研究设计和统计分析方法减少和控制;系统误差一般是由人为或者测量方法不对引起的误差,即我们所说的偏倚,系统误差是可以减少甚至可以避免。减少随机误差可以提供研究的精准性,减少或避免系统误差可以提高研究的真实性。偏倚是随机误差以外的,可导致研..

2022-04-22 19:04:26 18484

原创 R语言非参数检验

对于连续变量进行检验时,当数据分布状态不满足正态分布,那我们就不能采用t检验或者单因素方差分析来进行分析。此时,就要用到非参数检验的方法来进行分析了。

2022-04-20 16:47:39 2866

原创 R语言单因素方差分析及两两比较

一、导语两个样本均数的比较用t检验,那么多个样本均数的比较应该采用什么方法分析呢?就是接下来介绍的方差分析。方差分析由统计学家R.A.Fisher提出,又称为F检验。是通过对数据变异的分析来推断两个或者多个样本均数所代表总体均数是否有差别的一种统计学方法。二、方差分析思想方差分析的基本思想是把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各个部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。三、单因素方差分析变异来源完全随机化设计资料的方差分析,变

2022-04-02 18:24:41 5588

原创 R语言重复测量方差分析

一、概念重复测量指的是对同一观察对象的同一观察指标在不同的时间点上进行多次测量。用于分析观察指标在不同时间上的变化规律。这类资料在医学研究中比较常见。在实际工作当中,重复测量资料常被误认为是配对设计或随机单位组设计进行分析,不仅损失了重复测量资料所蕴含的信息,还容易的得到错误的结论。由于同一受试对象在不同的时间点的观测值之间往往彼此不独立,存在某种程度的相关,因此不满足常规统计方法所要求的的独立性假定。使得其分析方法有别于一般的统计分析方法。在临床试验中,对受试者一次用药后,对同一个指标多个时间

2022-03-31 17:44:52 5768

原创 R语言t检验

一、概念t检验又称Student's t检验,是以t分布为基础的统计分析方法。是定量资料分析中最为常见的假设检验方法。二、应用条件1、在单样本t检验中,总体标准差σ未知且样本含量较小(n<50)时,要求样本来自正态分布总体;2、两个小样本均数比较时,要求两个样本均来自正态分布总体,且两样本总体方差相等;如果两个样本方差不等,则用t'检验;3、对于两个大样本(样本数均大于50)的均数比较;在实际应用当中,与上述条件稍有偏差,只有数据呈单峰分布,且近似对称分布,一般影响不大。

2022-03-25 16:34:08 23639 1

原创 R语言分类变量的统计描述

三篇介绍了连续变量的统计描述的R语言相关函数,计算数值的相关统计指标。本文介绍分类变量的统计描述及如何在R语言中实现。不同于连续变量,分类变量的统计描述主要是汇总分类变量各类别例数及百分比。1、table()函数...

2022-03-24 18:17:04 11013

原创 R语言定量资料的统计描述

在统计学中,对定量资料(连续变量或者数值变量)的统计描述主要包括集中趋势和离散趋势两个方面。其中集中趋势包括均数、中位数、众数等指标,离散趋势包括方差、标准差、分位数(以上下四分位数最为常用)、最大值、最小值等指标。这些指标在R语言中都有相应的函数。data<-c(1,2,3,4,5,6,7,8,9,10,11)mean(data) #均值median(data) #中位数var(data) #方差sd(data) #标准差min(data) #最小值

2022-03-22 15:58:16 4341

原创 R语言连续变量正态性检验

在医学统计分析中,对于连续变量我们总是需要了解数据的分布状态,是正态分布数据还是偏态分布数据,只有了解了数据的分布状态才可以进行后续的统计分析工作。正态性检验方法主要包括图示法和假设检验法两大类。图示法包括直方图or核密度图和QQ图orP-P图;常用的假设检验法主要包括Shapiro-Wilk检验(Shapiro检验)和Kolmogorov-Smirnov检验。判断数据是否分布正态,我们通常先做出直方图或者核密度图来整体评估数据是否是正态分布,若数据分布偏态严重或者尖峰,可认为数据不符合正态分布;如

2022-03-21 16:28:30 4881

原创 R 语言读写数据编码格式

在使用R语言读取数据或者R代码时,有时候会出现中文乱码的现象。如何才能避免此类乱码问题的出现呢,笔者根据自己在实际数据处理过程中的经验,总结如下:笔者在Windows系统下,使用R软件进行统计分析相关事宜。相关代码仅供参考。1、数据读取时,增加参数encoding="UTF-8"或者fileEncoding="UTF-8"(linux环境下);encoding="GBK"或者fileEncoding="GBK"(Windows环境下);csv格式文件:data<-read.csv("D

2022-03-18 17:25:33 5094

原创 R及RStudio软件安装教程

R是比较常用的数据处理和分析软件,该如何安装呢?下面就手把手教给大家。主要包括两部分软件的安装,一是安装R,提供R环境;二是安装Rstudio,可以更方便快捷撰写R代码。首先先安装R软件安装网址:The Comprehensive R Archive Networkhttps://cran.r-project.org我使用的是谷歌浏览器。​如果电脑是Windows系统,点击Download R for Windows,进入后选择base后的install for thefirst.

2022-03-17 17:45:33 3710

原创 R语言数据标签、变量赋值、修改赋值

在数据处理分析过程中,分类变量的值有时候是试用数值来表示,从直观上并不能理解其含义,必须要有赋值对照表才能辅助理解。R语言在加标签上的功能并不常用,好在R语言可以直接处理分析字符串,在分析前把相应赋值改为具体含义的文字即可。例如,常见数据中使用1和2表示性别的男和女,直接利用1和2我们并不能准确认为就是1=男,2=女。可以赋值转换后再行分析。library(readxl)data<-read_xlsx("d:/DEMO数据.xlsx")data$糖尿病<-factor(data$糖尿病

2022-03-17 11:22:11 11998 4

原创 R语言选择数据子集

利用R进行分析时,有时候我们需要挑选部分变量或者行数据导出,或者需要分层分析,只对一部分数据进行分析,这个时候就需要我们利用R语言生成数据子集。主要包括三个方面的子集选择:举例:数据集data.xlsx文件中包括ID、age、gender、weight、height、BMI、WBC、RBC。1、只选择部分变量生成子集;#导入数据library(readxl)data<-read_xlsx("d:/data/data.xlsx",header=T)#数据子集中保留ID、age 、

2022-03-16 18:04:34 6637

原创 R语言中数据集合并

在数据整理过程,有时候需要对多个数据文件进行合并。总的来说,数据集合并包括两个方面。1、数据集横向合并,即两个数据集的变量不同。例如两个.xlsx数据集,其中一个数据集中包括ID、age、gender,另外一个数据集中包括ID、height、weight、BMI。此时可以使用merge()函数进行两个数据集的合并。R代码如下:library(readxl)setwd("d:/data")data1<-read_xlsx("data1.xlsx")data2<-read_x

2022-03-16 11:41:16 23461 3

原创 R语言给数据集创建新变量

再数据分析的过程中往往需要先创建新变量再进行分析。根据经验,主要包括两方面。1.独立创建变量,再利用新变量数据进行数据整理和分析,这样比较简单,代码如下:data$newvar<-data$oldvar创建一个空白变量代码如下:data$newvar<-NA2、新变量是有其他变量转化或者计算得来,代码如下:由定量变量计算生成新变量:data$BMI<-data$weight/data$height/data$height*10000定量或定性变量转化生成新变

2022-03-11 17:00:22 5543

原创 R语言导入数据文件 (Excel文件、csv文件导入R)

####开启R语言学习之旅####代码导入数据文件的两种路径指定方式:1、把路径写全:#xlsx文件library(readxl)data<-read_xlsx("d:/数据文件夹名称/data.xlsx",sheet="sheet1")#其他格式文件data<-read_xls("d:/数据文件夹名称/data.xls")data<-read.csv("d:/数据文件夹名称/data.csv",header=T)2、先设定处理文件路径setwd("

2022-03-10 10:26:45 37539 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除