TCGA_测序数据下载

TCGA数据已经改版,workflow.type只有STAR-counts数据,改版后数据下载与预处理方法见:

TCGA测序数据改版后的应对_老实人谢耳朵的博客-CSDN博客

以下为改版前的方法:

library("TCGAbiolinks")
library("SummarizedExperiment")

一、数据下载

1 GDCquery筛选-下载数据数据

query <- GDCquery(project = "TCGA-PRAD", #项目名
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification", 
                  workflow.type = "HTSeq - Counts")
samplesDown <- getResults(query,cols=c("cases"))  

#从sampleDown检索出TP
dataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown,
                                  typesample = "TP") #组织类型

#筛选完成的query
queryDown <- GDCquery(project = "TCGA-PRAD",
                      data.category = "Transcriptome Profiling",
                      data.type = "Gene Expression Quantification", 
                      workflow.type = "HTSeq - Counts", 
                      barcode = dataSmTP)

#下载GDCquery的结果
GDCdownload(queryDown,
            method = "api",
            directory = "GDCdata",
            files.per.chunk = 6) #网速慢可以设小一点

二、数据预处理

1 读入数据、预处理

dataPrep1 <- GDCprepare(query = queryDown, 
                        save = TRUE, 
                        directory = 'GDCdata', #默认
                        save.filename ="PRAD_case.rda")

dataPrep2 <- TCGAanalyze_Preprocessing(object = dataPrep1,
                                      cor.cut = 0.6,
                                      datatype = "HTSeq - Counts")

purityDATA <- TCGAtumor_purity(colnames(dataPrep1), 0, 0, 0, 0, 0.6)
Purity.barcodes<-purityDATA$pure_barcodes #肿瘤样本barcodes,为“character”
normal.barcodes<-purityDATA$filtered #正常组织的数据barcodes,为“character”

puried_data <-dataPrep2[,Purity.barcodes] #筛选后数据

 TCGAtumor_purity():筛选得到一个list[2]。

其中 pure_barcodes 为肿瘤样本,filtered 为正常组织样本(如果GDCquery时下载了Norm数据)

2 基因注释、预处理

需要注意DESeq2包要求数据是未经过标准化的

rownames(puried_data)<-rowData(dataPrep1)$external_gene_name 

#dataNorm <- TCGAanalyze_Normalization(tabDF = puried_data,
                                      geneInfo = geneInfo,
                                      method = "gcContent") 

dataFilt <- TCGAanalyze_Filtering(tabDF = dataNorm,
                                  method = "quantile", 
                                  qnt.cut =  0.25) #过滤阈值

write.csv(dataFilt,file = "dataFilt.csv",quote = FALSE)  

TCGAbiolinks包下载

该包可以从 Bioconductor 上安装稳定版本

if (!requireNamespace("BiocManager", quietly=TRUE))
    install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")

或者从 GitHub 上安装开发版本

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinksGUI.data")
BiocManager::install("BioinformaticsFMRP/TCGAbiolinks")

GDCquery参数说明:

  TCGA数据下载—TCGAbiolinks包参数详解 - 组学大讲堂问答社区

1.project

获取TCGA中最新的不同癌种的项目号,去官网上找:

Search”或者从“Program”中选择找

2.data.category

可以指定project中的数据类型,如查询"TCGA-LUAD",有7种数据类型。case_count为病人数,file_count为对应的文件数。下载表达谱,可以设置data.category="Transcriptome Profiling":

> TCGAbiolinks:::getProjectSummary("TCGA-LUAD") #查看指定project的数据类型
$data_categories
  case_count file_count               data_category
1         80        397     Transcriptome Profiling
2         92        361       Copy Number Variation
3         92        744 Simple Nucleotide Variation
4         80         80             DNA Methylation
5         92        105                    Clinical
6         92        352            Sequencing Reads
7         92        517                 Biospecimen
$case_count
[1] 92
$file_count
[1] 2556
$file_size
[1] 3.920606e+12

3.data.type

这个参数受到上一个参数的影响,不同的data.category,会有不同的data.type,如下表所示:

4.workflow.type

这个参数受到上两个参数的影响,不同的data.category和不同的data.type,会有不同的workflow.type,如下表所示:

5. barcode

指定要下载的样品,例如: 

barcode =c"TCGA-14-0736-02A-01R-2005-01""TCGA-06-0211-02A-02R-2005-01"

6. sample.type

对样本的类型进行过滤,例如,原发癌组织,复发癌等等;

 例如:

query <- GDCquery(project = "TCGA-ACC",
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "HTSeq - Counts",
                  sample.type = c("Primary solid Tumor"),
                  barcode = c("TARGET-20-PADZCG-04A-01R","TARGET-20-PARJCR-09A-01R"))

 

TCGA条码(barcode):

1.概念:条码(barcode)是TCGA纳入的每一个标本的专有标识符。

2.结构:

根据前3项即可确定病人编号,如TCGA-02-0001;

其中比较重要的是交代样本类型的Sample的两位数信息,是后面进行差异分析的分组依据。具体对应的含义如下:

3.barcode编制过程如下:

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
TCGA(The Cancer Genome Atlas)是一个大型的癌症基因组研究项目,旨在通过对多种癌症样本的全面基因组分析,揭示癌症发生、发展和治疗的分子机制。 CHOL(Cholangiocarcinoma)是胆管癌的缩写,它是一种罕见但危险的癌症类型,起源于肝胆管系统。TCGA中的CHOL数据包含了大量CHOL患者的肿瘤样本信息和对应的临床资料。 TCGA中CHOL数据的分析可以帮助研究者深入了解CHOL的分子特征、遗传变异和表观遗传学改变。首先,通过对CHOL样本进行基因组测序和表达分析,可以发现与CHOL发生和发展相关的致癌基因和抑癌基因的异常表达情况。这些异常表达的基因可能是CHOL的驱动基因,从而可以成为潜在的治疗靶点。 其次,在CHOL数据中可以鉴定出CHOL发生过程中的遗传变异,例如基因突变和染色体变异。这些遗传变异可以提供更深入的了解CHOL的发展机制,同时也为患者的个体化治疗提供了潜在的标志物。 此外,TCGA中CHOL数据还包括了临床资料,例如患者的年龄、性别、肿瘤阶段和预后等信息。通过将基因组分析数据与临床信息结合,科研人员可以研究CHOL的预后预测和治疗反应与基因组特征之间的关系。 总之,TCGA中CHOL数据为研究CHOL的发生机制、诊断、预后和治疗提供了宝贵的资源。通过对这些数据的深入分析,我们可以更好地认识和应对CHOL这种罕见但危险的癌症。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郁柳_Fudan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值