统计分析与作图
文章平均质量分 80
皮肤小白生
这个作者很懒,什么都没留下…
展开
-
【基于深度学习进行多变量纵向数据和生存数据的动态预测】
01【研究背景】阿尔茨海默病(AD)是一种进行性神经退行性疾病,在疾病的早期阶段准确预测AD的进展对于治疗至关重要。AD患者通常在疾病的整个过程中进行随访,从而重复测量多个纵向变量,将多个纵向变量纳入生存模型将会改善AD预测。许多现有的预测方法只使用最后可用的观测,忽略了累积纵向信息,具有局限性;适用于纵向和生存数据的联合模型(JM)被用于评估各种纵向生物标志物预测AD的能力,当考虑多个纵向结果,JM涉及大量的随机效应,计算困难。02【当前进展和关键科学问题】目前已经提出原创 2024-05-06 06:03:52 · 721 阅读 · 0 评论 -
神经网络模型--DEEPSURV
其中::特指神经网络的输出,表示给定协变量 的风险的对数估计。:是在时间 之前仍然存活的所有个体的风险的对数总和。:表示发生事件(例如死亡)的个体数。:这是正则化项,用于防止模型过拟合。原创 2024-05-06 06:00:01 · 566 阅读 · 0 评论 -
【无标题】
为了衡量学习者在新的数据上的表现,我们通常通过将数据分成训练集和测试集来模拟unseen数据的场景。通常,我们可以选择此类超参数的值。然而,在大多数情况下,我们希望调整学习器,以便它可以自己搜索“好的”模型配置。num.trees 默认为 500,mtry 为 floor(sqrt(ncol(data) - 1)),在我们的例子中是 4。在我们的例子中,我们的目标显然是对二元因子变量 credit_risk 进行建模或预测。通常,在机器学习中,我们不使用可用的完整数据,而是使用一个子集,即所谓的训练数据。原创 2024-04-25 13:52:46 · 697 阅读 · 0 评论 -
mrls3 超参数调参
机器学习的是模型的一阶(直接)参数,是训练模型时用梯度下降法寻优的参数,比如正则化回归模型的回归系数;而是模型的二阶参数,需要事先设定为某值,才能开始训练一阶模型参数,比如正则化回归模型的惩罚参数、KNN的邻居数等。超参数会对所训练模型的性能产生重大影响,所以不能是随便或凭经验随便指定,而是需要设定很多种备选配置,从中选出让模型性能最优的超参数配置,这就是。。首先要知道学习器包含哪些超参数:id列就是超参数的名字,default列是默认值。原创 2024-04-25 13:27:27 · 941 阅读 · 0 评论 -
R语言数据可视化-Upset图
我要给你安利一个R语言绘图的超实用干货——集合可视化的神器:UpSetR包!🌟它能够优雅地处理集合间的交集、并集,让数据的对比和关系一目了然。🎨告别那些让人眼花缭乱的传统图表,用UpSetR包让你的数据图形简洁又美观,还能轻松展示出更多的信息。✨🚀 特点速览:1️⃣ 直观展示集合关系2️⃣ 动态交互,探索数据更深入3️⃣ 自定义设置,满足你的个性化需求4️⃣ 一键导出,分享你的发现🔬 数据分析,不再只是数字游戏,让我们一起用UpSetR包,把数据变成故事,讲述属于你的见解。📚关于不同集合之间的交集原创 2024-04-22 22:57:22 · 834 阅读 · 0 评论 -
R语言-基于现有临床预测模型预测性能评估(predRupdate)
在结果中给出校准曲线的斜率0.7403,截距0.7479,AUC为0.5816及95%置信区间(0.5703-0.5928),Brier Score为0.1246。当我们用模型集成时,元模型必须是同一类型的模型,比如logistic或survival模型,这与常用的模型集成有所不同。在新数据上验证现有的预测模型,以估算模型的预测性能,即外部验证;将现有模型的系数及截距构建为数据框。将多个现有模型集成为一个新的模型。构建逻辑回归模型。模型验证。原创 2024-04-22 22:26:12 · 253 阅读 · 0 评论 -
【基于机器学习算法的随机生存森林-R语言生存分析】
随机生存森林是随机森林处理生存数据的扩展方法。它涵盖了随机森林的各种模型,包括:连续变量的回归,多元回归,分位数回归,分类,生存分析等典型应用。我们着重介绍其中的生存分析部分的内容。在生存分析中,常用Cox回归进行多因素分析。本文介绍一种基于随机森林算法的生存分析方法-随机生存森林(randomForestRSC)。4.2 绘制Brier score 随时间变化的曲线。7.2 karno变量对生存的影响。2.2 打印模型信息。绘制前5个样本的生存曲线。优化后的最佳节点数为10。原创 2024-04-22 22:17:10 · 275 阅读 · 0 评论 -
R语言-新颖的可解释性机器学习(vivid)
vivid构建了一种新的矩阵类型的布局,用于显示所有单变量和双变量的部分依赖图。这些新的可视化技术与模型无关,可以应用于回归和分类监督的学习设置,即使在变量数量很大且交互结构复杂的情况下,也能增强解释性。函数生成了一个广义偏依赖对图(GPDP),该图在对角线上包含了单变量偏依赖(带有ICE曲线),在上三角区包含了双变量偏依赖图,而在下三角区则是原始变量值的散点图。函数生成一个热图,用于显示变量重要性和交互作用,其中对角线上显示重要性值,非对角线上显示交互作用值。参数设置要显示的ICE曲线的数量。原创 2024-04-22 22:14:20 · 431 阅读 · 0 评论 -
R绘图--峰峦图/山脊图/ggridges包
第二列是X年X月X天的平均气温值,第三列是月份。目标是展现每个月份的气温分布密度曲线。示例数据。原创 2024-04-21 13:57:00 · 567 阅读 · 0 评论 -
R进阶绘图--散点图+统计分布图/ggpubr包/aplot包/gridExtra包
示例数据ToothGrowth数据集结构如图所示,这是一项评估维生素C对豚鼠牙齿生长的影响的研究数据,len是牙齿长度;supp是两种给药方式,一种是橙汁OJ,另一种是抗坏血酸VC;dose是三种给药水平。对于该数据集我们后续均采用非参数检验方法。iris数据集是R语言自带的鸢尾花数据集,有5个变量,我们今天用到的3个变量Petal.Length、Petal.Width、Species分别是花瓣长度、花瓣宽度和品种。示例数据。原创 2024-04-21 13:56:05 · 628 阅读 · 0 评论 -
R实用绘图--火山图 / ggplot2
火山图由散点图和阈值线构成,它通常用于展现统计检验的显著性(如:p value)和变化幅度(如:差异倍数),能够帮助我们快速直观地识别出那些变化幅度较大且具有统计学意义的数据点(如:差异基因)。常应用于生物学中的转录组、基因组等研究中。原创 2024-04-21 13:53:17 · 407 阅读 · 0 评论 -
实用绘图--弦图 / circlize包
今天带领大家绘制的是弦图,主要用到的是circlize包中的chordDiagram()函数。和弦图与桑基图比较类似,可以展示类别型数据之间的关系和流向。连接两个数据点之间的弧线可以通过方向、颜色、线型、线宽和与圆的接触面积来展示不同纬度的关系信息。弦图的优点在于它能把复杂的数据关系可视化,数据关系呈现的更加直观,缺点是当连接数过多的时候,弦图会比较混乱。原创 2024-04-21 13:51:14 · 146 阅读 · 0 评论 -
R实用绘图--桑基图 / 冲击图 / networkD3
今天带领大家绘制的是桑基图(Sankey diagram),用于可视化流动、转移或转换过程中的能量、资源或数量。桑基图主要由两个元素组成:节点和流线。节点代表不同的实体,而流线则表示这些实体之间的流动。桑基图的特点是它能够清晰地展示复杂的流动关系,使观察者能够迅速理解系统中各个部分之间的相互作用和能量或资源的流动路径。这种图表常常用于能源管理、物流优化、资源分配等领域。桑基图的名称来源于一名爱尔兰船长,最初他采用这种图展示了蒸汽的能源效率,所以该图以他的名字命名为桑基图。原创 2024-04-21 13:50:29 · 306 阅读 · 0 评论 -
R实用绘图--韦恩图
今天带领大家绘制的是韦恩图(Venn diagram),韦恩图属于关系型图表,通过圆圈与圆圈之间的重叠关系,来表示集合与集合之间的相交关系。一般来说韦恩图只适用于小于等于5个集合的场景,如果集合过多,一方面是不美观,另一方面是常用的R包也不支持。这种情况可以考虑花瓣图或者Upset图等,后续我们都会更新。原创 2024-04-21 13:48:31 · 198 阅读 · 0 评论 -
R实用绘图--相关性热图
准备好相关系数和显著性两个数据文件,数据展示如下。原创 2024-04-21 13:47:15 · 222 阅读 · 0 评论 -
R中list与dataframe相互转换
在用R语言处理数据的过程中,我经常会遇到list和dataframe数据格式之间的转换,一般是需要把list转换为dataframe的情况居多。一直以来我也没有好好研究两者的转换关系,通常都是碰到一次花时间解决一次,不知道有没有和我一样的小伙伴。这期推文比较系统的研究了list与dataframe转换的转换关系,希望能够对大家有所帮助,节约大家一些时间。原创 2024-04-21 13:46:03 · 307 阅读 · 0 评论 -
R语言:层次聚类分析(单、全、平均联动)+论文作图+计算距离矩阵+输出欧式距离
并且方法包括 "single"、"complete"、"average"、"centroid"和"ward"层次聚类方法可以用hclust()函数来实现,格式是hclust(d,method=)层次聚类:对于小样本来说很实用(如150个观测值或更少)划分聚类:能处理更大的数据量,但是需要事先确定聚类的个数。其中d是通过dist()函数产生的距离矩阵。直到所有的类被聚成一类为止。然后观测值被随机分成K类。每一个观测值自成一类。原创 2024-04-21 13:11:22 · 319 阅读 · 0 评论 -
R语言:随机森林分类+影响因子重要性可视化
我的理解:任一变量都不能单独作为判别好或坏的标准,建模的目的是找到多个变量(气象因子)的某种组合,从而实现对因变量(树皮厚度)的准确预测。rf为randomForest对象,需要说明的是,在构建随机森林模型时必须指定计算临近矩阵,即设置proximity参数为TRUE;(2)randomForest包:提供randomForest()函数用于随机森林。还可以通过R自带的plot函数绘制随机森林决策树的数目与模型误差的折线图。fac指定随机森林模型中所使用到的因子向量(因变量);原创 2024-04-21 13:09:59 · 426 阅读 · 0 评论 -
R语言:冗余RDA分析(结合回归和主成分分多元的排序方法)+置换检验+变差分解图
结合回归分析和主成分分析的排序方法使用:vegan包的rda()函数数据准备:变量之间要一一对应(比如都为30个样方)绘制RDA排序图(参数设置)参考R语言实践第三章:图形初阶RDA结果的置换检验:anova()注意:与方差检验无关。原创 2024-04-21 13:08:21 · 623 阅读 · 0 评论 -
R语言:相关性可视化绘图+进阶散点图矩阵、高密度散点图、六边形封箱图、气泡图
以相关系数表示的二元关系:通过散点图和散点图矩阵进行可视化。原创 2024-04-21 13:06:16 · 520 阅读 · 0 评论 -
R语言:计算变量间相关系数+导出矩阵结果
alternative则用来指定进行双侧检验或单侧检验(取值为"two.side"、"less"或"greater")method用以指定要计算的相关类型("pearson"、"kendall" 或 "spearman" )参数use=的取值可为"pairwise"或"complete"(分别表示对缺失值执行成对删除或行删除)参数method=的取值可为"pearson"(默认值)、"spearman"或"kendall"当研究的假设为总体的相关系数小于0时,请使用alternative="less"原创 2024-04-21 13:04:41 · 775 阅读 · 0 评论 -
【R数据分析-基础】
可以在这里插入的典型函数有mean()、sd()、var()、min()、max()、median()、length()、range()和quantile()可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误。格式为:stat.desc(x, basic=TRUE, desc=TRUE,norm=FALSE, p=0.95)若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。原创 2024-04-21 13:02:04 · 552 阅读 · 0 评论 -
【mantel test R 语言实现】
左边4个点表示4个分组,注意:点虽然只有一个,但表示的是矩阵数据!右边每个理化因子之间做相关性热图,颜色表示相关系数在通过manlel test,将左边矩阵与每个理化因子相关联注意:左边可以是一个大矩阵,也可以采用某些方法划分成若干小矩阵中间连线部分的宽窄和颜色分别代表r的统计量和显著性p值1.如果你有三个物种的数据和环境理化因子数据,你想知道哪些理化因子分别对三个物种影响最大?(当然也不一定要物种数据,可以换成其它)2.探索不同环境中的酶活性与理化因子间的关系。原创 2024-04-21 12:55:44 · 637 阅读 · 0 评论 -
ggcor【安装方案实测成功】
这里要介绍的ggcor是corrplot的有一种实现,在吸收借鉴(或者说是全般)corrplot的基础上,略有提升,使用上会更灵活简单。矩阵可视化已经至少有两个版本的实现了,魏太云基于base绘图系统写了corrplot包,应该说是相关这个小领域中最精美的包了,使用简单,样式丰富,只能用惊艳来形容。基于重写了corrplot,实现了corrplot中绝大多数的功能,但仅支持“square”和“circle”的绘图标记,样式有些单调,不过整个ggcorrplot包的代码大概300行,想学习用。原创 2024-04-21 10:21:36 · 720 阅读 · 0 评论 -
生存分析机器学习
在生存分析中,可以使用基于集成学习的方法,如Bagging、Boosting等,对多个模型进行集成,提高生存时间的预测准确性。鉴于目前生存分析的解读性文章太多,本公众号主打数据分析的实践、实战、复盘以及高分文章的复盘,本文只罗列核心的几个概念,欲只更多,大家可自行检索其他。在数据分析过程中,小编发现大家最大的问题是无法将自己的变量在不同的分析目的中顺延下去,因此,基于此生存分析合集,你将主要学会如何具体应用深度学习模型进行生存分析,并且迅速掌握用python及R语言实现用自己的数据进行生存分析,发表文章。原创 2024-04-18 21:03:40 · 898 阅读 · 0 评论 -
cannot import name ‘get_host‘ from ‘urllib3.util.url‘
Run这个错误表明在urllib3模块的util.url子模块中找不到名为get_host的函数。这可能是由于版本不匹配或者包的部分更新导致的。这个问题似乎与urllib3版本 2.0 有关,可能需要考虑降级urllib3版本到较旧的版本。你可以尝试使用以下命令安装一个较旧版本的urllib3Copy code。原创 2024-04-15 04:34:08 · 1208 阅读 · 0 评论 -
mlr3工具包: 重采样、基准测试
基准测试(benchmark)就是将不同学习器应用于同一个或几个任务,并使用同一个或几个重采样方法,然后使用同一个或几个评估指标来比较学习效果的过程。分层重抽样是指,拥有某一共同特征的样本必须以同比例分布在训练集和测试集中。在前两篇推文里,我们都将原始数据随机划分为训练集和测试集,其中训练集用于模型训练,测试集用于模型评估。分组重采样是指,拥有某一共同特征的样本必须同时被划分到训练集或测试集里去。在重采样中,使用训练集训练出的模型称为“中间模型”,第二步是将重采样方法应用于学习任务,使用。原创 2024-04-13 19:54:15 · 679 阅读 · 0 评论 -
限制立方样条(RCS)做生存分析
研究数据通常来自于观察某个特定群体的个体,并收集其相关信息。这些数据可以是从临床试验、队列研究、调查问卷等途径获得的。数据的特征通常包括个体的生存时间、生存状态(例如是否死亡)、危险因素(例如年龄、性别、治疗方案等)以及其他可能影响生存的变量。「限制立方样条的原理和优势」限制立方样条是一种非参数的拟合方法,通过将连续变量(如生存时间)转化为多个分段函数来建模生存曲线。RCS在建模过程中不对数据分布作出假设,因此适用于各种类型的生存数据。与传统方法相比,RCS具有更高的灵活性,可以更准确地拟合生存曲线的形状。原创 2024-04-13 19:41:23 · 723 阅读 · 0 评论 -
【R: mlr3:超参数调优】
模型调优当你对你的模型表现不满意时,你可能希望调高你的模型表现,可通过超参数调整或者尝试一个更加适合你的模型,本篇将介绍这些操作。本章主要包括3个部分的内容:超参数调整机器学习模型都有默认的超参数,但是这些超参数不能根据数据自动调整,往往不能得到更好的性能表现。但是手动调整往往也不能获得最佳的表现,mlr3包含自动调参的策略,在此包中实现自动调参,需要指定:搜索空间(search_space),优化算法(调参方法),评估方法(重抽样策略),评价指标。特征选择。原创 2024-04-13 19:09:11 · 530 阅读 · 0 评论 -
R语言: mlr3机器学习--生存分析
我们建议使用RCLL(mlr_measures_surv.rcll)来评估预测的质量, 使用一致性指数(mlr_measures_surv.cindex)来评估模型的区分度 及D-Calibration (mlr_measures_surv.dcalib)来评估模型的校准。学术论文中通常会在生存分析中提及“风险”预测(因此生存模型通常被称为“风险预测模型”),而没有定义“风险”的含义。从输出中可以看出,我们的预测都小于真实的观测时间,这意味着我们的模型肯定低估了真相。在生存分析中,分布预测更为常见。原创 2024-04-13 18:25:17 · 440 阅读 · 0 评论 -
使用 mlr3proba 的生存网络
在本文中,我们将只关注前五个,因为它们在文献中得到了更好的确立,并且它们具有相同的界面,这简化了调整,如下所示。我们不会为模型指定自定义架构,而是使用默认值,如果您熟悉 PyTorch,那么您可以选择创建自己的架构(如果您愿意)将其传递给模型中的 custom_net 参数。更详细地比较我们的结果。的功能有限,这对于基本模型拟合/预测来说是可以的,但是神经网络通常需要数据预处理和模型调整,因此我们将使用。请注意,在我们的转换中,我们假设每层的节点数相同,这是一个相当常见的假设,但可以考虑更高级的转换。原创 2024-04-13 18:15:13 · 1020 阅读 · 0 评论 -
Word 画三线表模板---一键套用
先选中表格,进入「表设计」-「表格样式」-「新建表格样式」,命名后设置水平居中。中,以后要使用,直接一键套用就OK了,不需要每次都要重新设置。以后如果需要使用三线表,我们可以选中表格后,如果经常要使用三线表,可以将三线表添加。中点击我们保存下来的三线表样式即可。此时,三线表制作就完成了。也可以点击左下角的【原创 2024-04-10 02:07:38 · 601 阅读 · 0 评论 -
R: 支持向量机(Support Vector Machine,简称SVM)
在数据科学和机器学习领域中,支持向量机(Support Vector Machine,简称SVM)是一种强大的监督学习算法,常用于分类和回归分析。它的优点之一是可以适用于复杂的数据集,并且在高维空间中表现良好。在本文中,我们将使用R语言和一些R自带的数据集来介绍如何使用支持向量机进行建模和模型评价。我们选择一个相对复杂的数据集,以便更好地展示支持向量机的应用。为了使模型更准确,我们可以使用交叉验证来选择最佳的参数组合。让我们继续使用经典的鸢尾花(iris)数据集来演示支持向量机(SVM)的结果可视化。原创 2024-04-10 01:47:19 · 956 阅读 · 0 评论 -
卡方 同时输入上下键
如:输入NO3文本后,选择”NO“,点击【插入】-【首字下沉】-【首字下沉选项】,打开”首字下沉“对话框,在”位置“栏中选择”下沉“选项,单击”确定“按钮,效果如图。点击【开始】-【段落】-【中文版式】-【双行合一】,打开”双行合一“对话框,在”文字“文本框中的字体”2“和”t“之间插入一个空格,单击”确定“按钮即可。按Ctrl+D组合键,打开“字体”对话框,勾选“上标”或“下标”选项即可。点击【开始】-【字体】组,单击“上标”或“下标”按钮。上标:Ctrl+shift+=原创 2024-04-05 13:43:51 · 152 阅读 · 0 评论 -
生存分析基础
临床试验的病人招募通常是个持续的过程,不同病人的试验一般始于日历上不同的具体时间点,在数据分析时只有采用相对时间,才能有同样的时间轴及零点。对于临床试验的病人群体而言,个体病人的生存时间是一个随机变量,用大写的T表示。而生存曲线横坐标则对应各病人事件发生的时间点,它不是随机变量 (而用做函数的自变量),用小写的t表示,随机变量T一般不遵从正态分布。其中最为常见的情形称为右删失(right censoring,图1),对这样的病人我们只知道其生存时间要大于从试验开始到删失发生的时间。原创 2024-03-27 01:05:05 · 452 阅读 · 0 评论 -
R 生存分析3:Cox等比例风险回归及等比例风险检验
虽然Kaplan-Meier分析方法目前应用很广,但是该方法存在一下局限:对于一些连续型变量,必须分类下可以进行生存率对比是一种单变量分析,无法同时对多组变量进行分析是一种非参数分析方法,必须有患者个体数据才能进行分析英国统计学家David Cox在1972年进一步拓展了Kaplan-Meier,将性别和年龄等因素包含在内,也就是Cox Proportional Hazard Model(Cox回归),该方法可以用来预测一个或多个不同变量在某一时间对死亡率的影响。原创 2024-03-27 01:03:53 · 1361 阅读 · 0 评论 -
R 药物经济学评价:Markov模型构建及markov轨迹图绘制
药物经济学评价中比较常用的模型包括决策树模型、马尔科夫(Markov)模型、分区生存模型、微观仿真模拟模型、离散事件模拟模型等。其中Markov模型是药物经济学评价中常用的一种建模方法,常用于长期慢性病经济学评估中。该模型是一种特殊的循环决策树模型,是一种将临床事件和相关干预实施的时间因素纳入模型的动态模型,对现实环境中患者健康状态连续变化的一种粗略模拟,是一种离散时点状态转移的模型。在markov模型中,研究时限被划分为等长的循环周期,模型中的患者被定义划分为有限个健康状态。原创 2024-03-27 00:49:46 · 1531 阅读 · 0 评论 -
书籍推荐|meta分析R语言实践教程-Doing Meta-Analysis with R: A Hands-On Guide
R语言的安装、数据导入等基础知识效应大小的计算与汇总:介绍如何计算不同研究中的效应大小,并将合并成综合效应估计。森林图:森林图的绘制与美化。异质性诊断:介绍如何评估包含在meta分析中的研究之间的异质性。亚组分析与meta回归:讨论如何探索异质性的潜在来源与处理方法,包括亚组分析和meta回归的方法森林图介绍森林图2漏斗图异质性评估亚组分析meta回归。原创 2024-03-27 00:45:44 · 1078 阅读 · 0 评论 -
R使用netmeta程序包实现生存数据的频率学网状meta分析
之前的推文系统的介绍了使用netmeta包实现对的网状meta分析。今天的文章介绍如何使用netmeta程序包实现生存数据的频率学网状meta分析,用来评估6种免疫疗法联合化疗方案治疗一线晚期或转移性鳞状食管癌的NMA。原创 2024-03-27 00:42:48 · 762 阅读 · 0 评论 -
R使用multinma程序包实现生存数据的贝叶斯网状meta分析
multinma是由Phillippo开发的程序包,主要用来实现基于IPD校准的多水平网状Meta回归(ML-NMR),同时该程序包也可以用来实现传统的网状meta分析。今天的文章介绍如何使用multinma程序包实现生存数据的贝叶斯网状meta分析,用来评估6种免疫疗法联合化疗方案治疗一线晚期或转移性鳞状食管癌的NMA。原创 2024-03-27 00:39:15 · 1054 阅读 · 0 评论