在前面的教程中,我们介绍了使用omicverse完成基本的RNA-seq的分析流程,在本节教程中,我们将介绍如何使用omicverse完成加权基因共表达网络分析WGCNA以及蛋白质相互作用PPI分析。
环境的下载
在这里我们只需要安装omicverse
环境即可,有两个方法:
- 一个是使用conda:
conda install omicverse -c conda-forge
- 另一个是使用pip:
pip install omicverse -i https://pypi.tuna.tsinghua.edu.cn/simple/
。-i
的意思是指定清华镜像源,在国内可能会下载地快一些。
导入环境
import omicverse as ov
ov.utils.ov_plot_set()
加权基因共表达网络分析(WGCNA)
加权基因共表达网络分析(WGCNA)是一种系统生物学方法,用于表征不同样品之间的基因关联模式,可用于鉴定高度协同的基因集,并基于基因集的内生性和基因集与表型之间的关联来鉴定候选生物标志物基因或治疗靶点。目前引用量已超过15,000。但Python中完成WGCNA分析相关的包仍是空白。我们根据WGCNA的原理,从底层上复现了原版WGCNA算法。
加载数据
在这里,我们选择WGCNA原版的演示数据来进行分析,数据可以在github上进行下载。
import pandas as pd
data=ov.utils.read_csv(filepath_or_buffer='https://raw.githubusercontent.com/Starlitnightly/ov/master/sample/LiverFemale3600.csv',
index_col=0)
data.head()
相关性矩阵计算
WGCNA的第一步是计算基因间的相关性矩阵,这里我们采用皮尔森系数的计算方法,来完成基因间的直接相关性矩阵计算。
gene_wgcna=ov.bulk.pyWGCNA(data,save_path='result')
gene_wgcna.calculate_correlation_direct(method='pearson',save=False)
在 pyWGCNA 模块中,我们需要将直接相关矩阵
转换为间接相