之前接到粉丝来信,想让我们上线一些构建诊断模型和风险模型的工具,为此,我们加班加点,上线了几个工具,接下来逐一介绍一下
链接:
http://www.tbfollow.com/singleCollectionTool#href-constru
目前构建风险模型最常见的套路之一,单变量cox分析+lasso+多变量cox分析(逐步回归)构建风险模型,这里我们讲三个部分进行拆开,进行讲解
1、单变量cox分析
通过survival包进行单变量cox分析,并通过阈值筛选预后相关的特征
特征表达数据
生存数据
点击提交就可以等待运行完成,默认选择p<0.05筛选预后相关的基因,可以根据自己的需求进行修改,常见的<0.01,<0.005,<0.001,<0.0001等等
其中tcga.sig.cox.txt即为p<0.05的相关的基因
2、预后之lasso分析
lasso分析主要是为了进一步压缩基因的数量,从侧面来说可以去掉一个共线性表达的基因,其实就是一个去重的过程,这里的去重并不是单纯的名字的重复,而是表达模式的相似
特征表达数据
生存数据
分析的基因名
这里常规选择预后有意义的基因
点击提交就可以等待运行完成
3、预后之多变cox构建风险模型
这里上传的数据和lasso分析类似,不一一介绍了
需要注意的是,如果基因过多可以选择逐步回归的方法进行压缩
4、机器学习筛选特征基因
这里的选择特征基因主要是基于二分类的分组进行的,如果是预后模型,可使用患者的存活状态进行分析
特征表达数据
分组信息
分析的基因
然后选择合适的算法就可以了,其中SVM跑的比较慢,需要耐心等待
直接提交就可以了
5、101种算法组合构建风险模型
参考已有的文献101种算法组合筛选特征基因,构建预后模型(Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer)
需准备四个文件
训练集和验证基因的表达谱为training_expr/Testing_expr,行为基因,列为样本的表达谱
训练集和验证集的生存数据
训练集
验证集
其中,Cohort列为数据集的名称,训练集只有一个,而验证集可以有一个数据集也可以是多个数据集
这里分组的颜色为,训练集+验证集个数,如验证集有四个数据集,则需选择4+1也就5个颜色
热图是从低到高,也就是绘制c-index大小的颜色,多种算法计算后获取的特征基因,我们如何判断那种模型较好呢?这里选择使用c-index的方法进行比较,并计算了每一个算法得到的风险得分的值,后面可以自己绘制KM曲线和ROC曲线。
整个过程比较慢,需要耐心等到运行结果
6、113种算法组合构建诊断模型
该方法是有103种算法构建预后模型延伸而来的,输入的数据类型,主要就是
将训练集和验证基因生存数据替换为分组数据
其他的参数是一样的,我们正常运行即可等待结果,只是不同于预后模型选择c-index比较模型的好坏,而诊断模型则是用AUC值作为评判标准
7、二分类AUC绘制
有时候很多人会单独绘制单个基因/评分的AUC值,我们这里提供了一个单独绘制AUC的工具
表达数据
分组数据
提交后,等待运行完成即可
时间仓促,我们加班加点在上线各个工具,如果喜欢豆芽菜的分析网站,可以推荐给身边的朋友哦!!!!!!!!
原文链接:https://mp.weixin.qq.com/s?__biz=MzkxMjMxOTcyNQ==&mid=2247485781&idx=1&sn=fe13b806cfff5007bf59cf16e2ac443b&chksm=c10ffcd7f67875c18d88a492ecebe6dcc2cca797c39ef1a8d4f9a2d10f53060be3ba4ec42c3f&token=959265649&lang=zh_CN#rd