原文链接:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9537943/
背景:
癌症相关成纤维细胞 (CAF) 参与肿瘤生长、血管生成、转移和治疗耐药性。我们试图探索肝细胞癌(HCC)中的CAF特征,并建立基于CAF的风险特征来预测肝细胞癌患者的预后。
工具链接:
http://www.sxdyc.com/CAFriskModel
1、单细胞数据读取
这里需要注意,单细胞目前的数据有三种格式,如果不清楚,可以查看之前的文档
http://www.sxdyc.com/clusteringReduction
这里我们提供了三种格式的文件
我们以10x的数据为例
文件夹的名字就是样本的名字,记得不要太长,也不要以数字开头,每一个文件夹包含了三个文件
全选这四个文件夹,压缩为zip,然后上传即可
提交后设置任务名,等待运行成功即可。
运行完成后,点击文件下载
2、单细胞数据过滤
这里选择的阈值 100<umi<50000,100<单个细胞表达的基因数量<5000,线粒体的含量小于10%
3、去批次
选择去批次的方法,当然你也可以选择不去批次,如果这里选择none的话,那么结果得到的两个图片和第二步结果是一样的
4、第一次聚类筛选特定的细胞亚群
选择合适的分辨率,上传特征基因的名字,如这里做的CAF细胞,选择的是ACTA2,FAP,FDGFRB,NOTCH3这四个基因,输入的这些基因 为CAF的marker基因,后面用于筛选CAF的亚群
5、特定亚群的二次聚类
在第四步中亚群3为成纤维细胞,我们提取亚群3进行二次聚类
6、marker基因的筛选及可视化
筛选CAF小亚群的marker基因
7、copykat预测恶性细胞
8、肿瘤相关通路评分的比较
9、TCGA数据准备
准备一个生存数据
如果是表型缺失,怎么输入Unknown
10、新增数据集(可选)
如果这里有GEO的数据集,那这时候准备一个表达谱和生存数据
其中表达谱的行为基因,列为样本,生存数据包含三列
记得这里的数据集名字,不要出现中文,空格,特殊符号等等,这里可以输入多个数据集,分批次进行上传
11、关键亚群丰度在肿瘤发生中的比较(可选)
如果该肿瘤有癌组织和癌旁组织,则可以选择使用ssGSEA的方法预测TCGA的每一个人关于CAF小亚群的丰度。
当然,也可以不做差异比较
12、关键亚群的KM曲线
13、关键亚群相关基因集的筛选
如果有正常组织和癌组织,可以选择差异分析+相关性分析进行筛选关键的基因
如果没有正常组织和癌组织,就不选择进行差异分析,只通过相关性分析,筛选相关基因
14、基于关键亚群构建风险模型
接下来使用单因素cox+lasso+逐步回归+多因素cox分析构建风险模型
15、独立数据验证风险模型的鲁棒性
通过独立数据机验证风险模型的鲁棒性
这里为什么出现这个问题呢?是因为该数据集的生存时间转化为年,这个非常重要,如果不行,则跳回第十步重新运行
16、临床表型的预后分析
这里有6个表型,就需要准备6+2=8个颜色
长宽不合适可自行调整
17、module基因的突变分析
18、module基因的相关性分析
19、module基因的GSVA分析
20、module基因与免疫的相关性分析
21、免疫治疗效果的比较
使用IMvigor210数据+GSE78220验证高低风险免疫治疗响应和不响应的比较
The responsiveness of risk score to PD-L1 blockade immunotherapy in IMvigor210 cohort. (A) Differences in risk scores among immunotherapy responses in the IMvigor210 cohort; (B) Distribution of immunotherapy responses among risk score groups in the IMvigor210 cohort; (C) Prognostic differences among risk score groups in the IMvigor210 cohort; (D) Prognostic differences between risk score groups in early stage patients in the IMvigor210 cohort; (E) prognostic differences between risk score groups in advanced patients in the IMvigor210 cohort; (F) prognostic differences in risk score groups in the GSE78220 cohort; (H) Distribution of immunotherapy responses among risk score groups in the GSE78220 cohort. ****P < 0.0001.
g:gse78220数据集中免疫治疗响应与不响应风险得分的比较。
####################################
到这一步该文章基本就已经完全复现了。
如果不清楚,可以仔细看一下原文。
哔哩哔哩链接:https://www.bilibili.com/video/BV1PF4m1A7D8/?spm_id_from=333.337.search-card.all.click
官网链接:http://www.sxdyc.com/course?courseId=8d5b3d10057b4fd0aa7c2eb6cfc15200
工具链接:http://www.sxdyc.com/CAFriskModel