零代码复现5-CAF细胞的套路文章

最新推荐文章于 2024-10-29 16:18:55 发布

不务正业的小主治

最新推荐文章于 2024-10-29 16:18:55 发布

阅读量1.8k

点赞数 28

文章标签：经验分享笔记人工智能机器学习学习

本文链接：https://blog.csdn.net/weixin_49159150/article/details/138212848

版权

原文链接：

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9537943/

背景：

癌症相关成纤维细胞（CAF）参与肿瘤生长、血管生成、转移和治疗耐药性。我们试图探索肝细胞癌（HCC）中的CAF特征，并建立基于CAF的风险特征来预测肝细胞癌患者的预后。

工具链接：

http://www.sxdyc.com/CAFriskModel

1、单细胞数据读取

这里需要注意，单细胞目前的数据有三种格式，如果不清楚，可以查看之前的文档

http://www.sxdyc.com/clusteringReduction

这里我们提供了三种格式的文件

我们以10x的数据为例

文件夹的名字就是样本的名字，记得不要太长，也不要以数字开头，每一个文件夹包含了三个文件

全选这四个文件夹，压缩为zip，然后上传即可

提交后设置任务名，等待运行成功即可。

运行完成后，点击文件下载

2、单细胞数据过滤

这里选择的阈值 100<umi<50000，100<单个细胞表达的基因数量<5000，线粒体的含量小于10%

3、去批次

选择去批次的方法，当然你也可以选择不去批次，如果这里选择none的话，那么结果得到的两个图片和第二步结果是一样的

4、第一次聚类筛选特定的细胞亚群

选择合适的分辨率，上传特征基因的名字，如这里做的CAF细胞，选择的是ACTA2,FAP,FDGFRB,NOTCH3这四个基因，输入的这些基因为CAF的marker基因，后面用于筛选CAF的亚群

5、特定亚群的二次聚类

在第四步中亚群3为成纤维细胞，我们提取亚群3进行二次聚类

6、marker基因的筛选及可视化

筛选CAF小亚群的marker基因

7、copykat预测恶性细胞

8、肿瘤相关通路评分的比较

9、TCGA数据准备

准备一个生存数据

如果是表型缺失，怎么输入Unknown

10、新增数据集（可选）

如果这里有GEO的数据集，那这时候准备一个表达谱和生存数据

其中表达谱的行为基因，列为样本，生存数据包含三列

记得这里的数据集名字，不要出现中文，空格，特殊符号等等，这里可以输入多个数据集，分批次进行上传

11、关键亚群丰度在肿瘤发生中的比较（可选）

如果该肿瘤有癌组织和癌旁组织，则可以选择使用ssGSEA的方法预测TCGA的每一个人关于CAF小亚群的丰度。

当然，也可以不做差异比较

12、关键亚群的KM曲线

13、关键亚群相关基因集的筛选

如果有正常组织和癌组织，可以选择差异分析+相关性分析进行筛选关键的基因

如果没有正常组织和癌组织，就不选择进行差异分析，只通过相关性分析，筛选相关基因

14、基于关键亚群构建风险模型

接下来使用单因素cox+lasso+逐步回归+多因素cox分析构建风险模型

15、独立数据验证风险模型的鲁棒性

通过独立数据机验证风险模型的鲁棒性

这里为什么出现这个问题呢？是因为该数据集的生存时间转化为年，这个非常重要，如果不行，则跳回第十步重新运行

16、临床表型的预后分析

这里有6个表型，就需要准备6+2=8个颜色

长宽不合适可自行调整

17、module基因的突变分析

18、module基因的相关性分析

19、module基因的GSVA分析

20、module基因与免疫的相关性分析

21、免疫治疗效果的比较

使用IMvigor210数据+GSE78220验证高低风险免疫治疗响应和不响应的比较

The responsiveness of risk score to PD-L1 blockade immunotherapy in IMvigor210 cohort. (A) Differences in risk scores among immunotherapy responses in the IMvigor210 cohort; (B) Distribution of immunotherapy responses among risk score groups in the IMvigor210 cohort; (C) Prognostic differences among risk score groups in the IMvigor210 cohort; (D) Prognostic differences between risk score groups in early stage patients in the IMvigor210 cohort; (E) prognostic differences between risk score groups in advanced patients in the IMvigor210 cohort; (F) prognostic differences in risk score groups in the GSE78220 cohort; (H) Distribution of immunotherapy responses among risk score groups in the GSE78220 cohort. ****P < 0.0001.

g:gse78220数据集中免疫治疗响应与不响应风险得分的比较。

####################################

到这一步该文章基本就已经完全复现了。

如果不清楚，可以仔细看一下原文。

哔哩哔哩链接：https://www.bilibili.com/video/BV1PF4m1A7D8/?spm_id_from=333.337.search-card.all.click

官网链接：http://www.sxdyc.com/course?courseId=8d5b3d10057b4fd0aa7c2eb6cfc15200

工具链接：http://www.sxdyc.com/CAFriskModel