TCGA 数据库基因表达数据的下载:最大的公开肿瘤数据库,可用于各种深度学习项目

TCGA癌种项目:
项目名称癌种样本数量
TCGA-BRCA乳腺癌(Breast Invasive Carcinoma)1079
TCGA-OV卵巢浆液性囊腺癌(Ovarian Serous Cystadenocarcinoma)571
TCGA-LUAD肺腺癌(Lung Adenocarcinoma)563
TCGA-UCEC子宫内膜癌(Uterine Corpus Endometrial Carcinoma)542
TCGA-HNSC头颈部鳞状细胞癌(Head and Neck Squamous Cell Carcinoma)523
TCGA-KIRC肾细胞癌(Kidney Renal Clear Cell Carcinoma)523
TCGA-GBM胶质母细胞瘤(Glioblastoma Multiforme)522
TCGA-LGG低级别胶质瘤(Brain Lower Grade Glioma)509
TCGA-LUSC肺鳞状细胞癌(Lung Squamous Cell Carcinoma)501
TCGA-THCA甲状腺癌(Thyroid Carcinoma)473
TCGA-PRAD前列腺癌(Prostate Adenocarcinoma)469
TCGA-SKCM黑色素瘤(Skin Cutaneous Melanoma)469
TCGA-COAD结肠癌(Colon Adenocarcinoma)458
TCGA-STAD胃癌(Stomach Adenocarcinoma)437
TCGA-BLCA膀胱癌(Bladder Urothelial Carcinoma)408
TCGA-LIHC肝细胞癌(Liver Hepatocellular Carcinoma)375
TCGA-CESC宫颈癌(Cervical Squamous Cell Carcinoma and Endocervical Adenocarcinoma)305
TCGA-KIRP肾乳头状细胞癌(Kidney Renal Papillary Cell Carcinoma)289
TCGA-TGCT睾丸生殖细胞肿瘤(Testicular Germ Cell Tumors)261
TCGA-SARC软组织肉瘤(Sarcoma)255
TCGA-ESCA食管癌(Esophageal Carcinoma)183
TCGA-PAAD胰腺癌(Pancreatic Adenocarcinoma)173
TCGA-READ直肠癌(Rectum Adenocarcinoma)170
TCGA-PCPG嗜铬细胞瘤/副神经节瘤(Pheochromocytoma and Paraganglioma)169
TCGA-LAML急性髓细胞性白血病(Acute Myeloid Leukemia)135
TCGA-THYM胸腺瘤(Thymoma)97
TCGA-ACC肾上腺皮质癌(Adrenocortical Carcinoma)92
TCGA-MESO恶性间皮瘤(Mesothelioma)85
TCGA-UVM葡萄膜黑色素瘤(Uveal Melanoma)80
TCGA-KICH肾嫌色细胞癌(Kidney Chromophobe)66
TCGA-UCS子宫梗死性肉瘤(Uterine Carcinosarcoma)57
TCGA-CHOL胆管癌(Cholangiocarcinoma)50
TCGA-DLBC弥漫性大B细胞淋巴瘤(Lymphoid Neoplasm Diffuse Large B-cell Lymphoma)47
指定好项目名称下载即可(STAR-count转录组定量结果,其它数据类型需要自己指定):
library(TCGAbiolinks)
library(dplyr)
library(SummarizedExperiment)
library(msigdbr)

# 选择项目
class <- "TCGA-READ"

# 数据下载
query <- GDCquery(
  project = class,
  data.category = "Transcriptome Profiling",
  data.type = "Gene Expression Quantification", 
  workflow.type = "STAR - Counts"
)
GDCdownload(query = query)
data <- GDCprepare(query = query)
if (!dir.exists(paste0("./", class))) {
  dir.create(paste0("./", class))
}
Exp <- assay(data) %>% as.data.frame() # 提取数据表达
ann <- rowRanges(data) # 提取基因注释
ann <- as.data.frame(ann)
rownames(ann) <- ann$gene_id
ann <- ann[rownames(Exp),]
write.csv(ann, paste0("./", class,"/ann.csv"), row.names = F) # 基因注释信息
Exp <- cbind(data.frame(Gene = ann$gene_name), Exp)
write.csv(Exp, paste0("./", class,"/exp.csv"), row.names = F) # 表达矩阵
clinical <- GDCquery_clinic(project= class, type = "clinical") # 提取临床信息
write.csv(clinical, paste0("./", class,"/clinical.csv"), row.names = F) # 临床注释信息
结果如下:

图片

▲ count 表达矩阵

图片

▲ 样本临床、生存信息

图片

▲ 基因注释

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值