TCGA下载RNA-seq数据、合并成表达矩阵

这篇博客详细记录了如何从国家癌症基因组数据中心(GDC)下载TCGA项目的胃癌(STAD)RNA-seq数据。首先,访问GDC官网并清空购物车,接着在Repository中选择Cases,设定过滤条件为PrimarySite为胃癌,Program为TCGA,Project为TCGA-STAD。然后在Files部分选择transcriptome profiling,GeneExpressionQuantification和RNA-seq实验策略。将所需文件加入购物车,下载Metadata、Manifest和Cart文件,并将它们合并为基因表达矩阵。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

记录一下步骤~

1、先进入GDC官网

GDCicon-default.png?t=M4ADhttps://portal.gdc.cancer.gov/2、进入官网后是这样的:点击Repository

3、点进去之后是下面的第一张图片这样的。(但得先确定自己的Cart里面是空的,这里我之前添加了542个文件,所以cart那里有个542,所以我需要进行清除)

清除Cart里的文件:点击cart,点进去之后是下面这样的:

 然后点击红色的Remove From Cart,点击ALL Files。

清除完之后返回到Repository页面,也就是下面这样的页面:

4、先点击Cases,选择你需要的一些选项。

以我自己下载TCGA的胃癌举例

Primary Site :选择你需要下载的癌症,所以这里我就选择了stomach

Program:选择了TCGA

Project:选择了TCGA-STAD

其他的默认了,可以根据你想要的选项进行选择

5、再点击Files

Date category:选择transcriptome profiling

Date Type:选择 Gene Expression Quantification

Experimental Strategy:选择RNA-seq

其他没选了

6、选完之后,点击Add ALL Files to Cart,这样就把我们需要的样本文件都添加到购物车啦。

 

7、点击Cart,进入到如下页面

下载3个文件:Metadata、Download里面的(Manifest和Cart)

 8、下载好之后,把这3个文件放在同一个文件夹里,然后使用两个脚本合并出表达矩阵(行是基因,列是样本)!!!

要使用代码整理TCGAbiolink和GDCquery下载TCGA的cart文件夹表达矩阵,您可以使用Python编程语言和相关的生物信息学库。下面是一个简单的示例代码,展示如何使用pandas库来整理表达矩阵数据。 首先,确保您已经安装了必要的库。您可以使用以下命令在终端或命令提示符中安装它们: ``` pip install pandas pip install biocode ``` 接下来,您可以使用以下代码来整理TCGA的cart文件夹表达矩阵: ```python import pandas as pd from biocode import gdc_metadata # 读取metadata.json文件 metadata = gdc_metadata.get_metadata('metadata.json') # 定义变量来存储表达矩阵数据 gene_symbols = metadata['genes'] # 基因符号列表 expression_values = [] # 表达值列表 # 遍历每个样本数据集中的基因表达数据 for dataset in metadata['datasets']: for gene in gene_symbols: # 从样本数据集中提取表达值 expression_value = dataset['gene_expression'][gene] expression_values.append(expression_value) # 将表达值列表转换为DataFrame对象 expression_matrix = pd.DataFrame(expression_values) # 打印表达矩阵数据 print(expression_matrix) ``` 这段代码首先使用pandas库读取metadata.json文件中的基因和样本数据集信息。然后,它遍历每个样本数据集中的基因,并提取相应的表达值。最后,它将表达值列表转换为pandas的DataFrame对象,并打印出来。这样,您就可以使用表达矩阵数据来进行进一步的分析或可视化。 请注意,这只是一个简单的示例代码,您可以根据您的具体需求进行修改和扩展。此外,确保您的环境已经正确配置了所需的库和依赖项,以便能够运行代码。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值