探索TCGA数据的利器——TCGAbiolinksR包使用技巧

最新推荐文章于 2024-08-23 16:45:28 发布

凑齐六个字吧

最新推荐文章于 2024-08-23 16:45:28 发布

阅读量968

点赞数 11

分类专栏：转录组文章标签：数据库 java 服务器

本文链接：https://blog.csdn.net/zfyyzhys/article/details/138975844

版权

转录组专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文作者：松下问童子。简介：一个有温度的外科医生。

在生物信息学研究中，TCGA（The Cancer Genome Atlas）是一个极为重要的数据资源库，提供了大量关于不同癌症类型的基因组、转录组、表观基因组等多种数据。如何高效地获取和处理这些数据呢？今天我们来聊聊一个非常实用的R包——TCGAbiolinks。

安装TCGAbiolinksR包

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")
library(TCGAbiolinks)

查询与下载数据

query <- GDCquery(project = "TCGA-LUAD", # 项目ID，例如肺腺癌
                  data.category = "Clinical",
                  file.type = "xml")
GDCdownload(query)
clinical.data <- GDCprepare_clinic(query, clinical.info = "patient")

好了，在这一步的时候，可能有些小伙伴在没开科学上网的情况下会感觉下载速度极慢，而且有些情况开了也会感觉好慢，那么，小编在这里有几个使用小技巧：第一种，

我们看到代理有3种模式，如果你开了第一种的话，有些时候不稳定的话，那么就会出现下面这种情况，花费的时间应该会接近一个小时甚至更长时间

那么我的解决办法就是你先等着，等他开始进行第一个文件下载的时候，你选择断一次VPN，那么后续下载的话就会很流畅，再出现的话，你就直接按前一次的方法应该就能成功。第二种，解决办法就是你直接选择代理里面的全局模式，下载速度就直接快起来了。第三种，大家可以把相应的文件下载到本地读取进去就好啦。那么就有小伙伴就会说了，你为啥不直接使用第二种方法，好了，我承认有些时候不交学费的话，有些东西还是搞不定的，哈哈，个人的经验~

数据预处理数据下载后，可以使用TCGAbiolinks提供的函数进行预处理。例如，标准化基因表达数据：

query <- GDCquery(project = "TCGA-LUAD",
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "HTSeq - Counts")
GDCdownload(query)
expression.data <- GDCprepare(query)

总结

TCGAbiolinksR包提供了丰富的功能，帮助研究人员高效地获取、处理和分析TCGA数据。希望今天的分享对你有所帮助，欢迎大家留言讨论更多使用技巧！

注：若对内容有疑惑或者发现明确错误的朋友，请联系后台(希望多多交流)。更多内容可关注公众号：生信方舟