生信学习——TGCA数据库的命名原则

最新推荐文章于 2024-11-16 20:04:06 发布

Lifelrving

最新推荐文章于 2024-11-16 20:04:06 发布

阅读量1.3k

点赞数

分类专栏：生信学习

本文链接：https://blog.csdn.net/weixin_44871977/article/details/106993380

版权

生信学习专栏收录该内容

3 篇文章

订阅专栏

在TGCA数据库中一个患者至多对应两个样本，但在原始选区的时候，一共是有多个样本可以选取的，从这多个样本中选取阴性（癌旁组织）和阳性（癌组织）最好的那个，当然，如果只有阳性或阴性的话，那么至多只有1个样本。如：
TGCA-A6-6650-01A-11R-1174-07
TGCA-A6-6650-01A-11R-A278-07
TGCA-A6-6650-01B-02R-A277-07
一般我们只能看到前4组数字，即TGCA-A6-6650-01A，也就是另外2个样本被舍弃了，舍弃原则：
TGCA-Project名称
A6-癌症组织名称，具体见https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650-受试者编号（ID);
01:01-09表示肿瘤;
10-19表示正常对照组;
AorB：具体不清楚，但是A好于B，所以有A的话一定会选A
后面的2组编号不再重要了，分别是
11：Portion，同属一个患者组织的不同部分的顺序编号，同一组织会分割为100-120mg的部分
R：分析的分钟类型，具体如下：对应分析因子类型
1174：Plate，在一系列96孔板中的顺序，值越大制板越晚
07：测序或鉴定中心编码
综上，以上3个样本优先排除第三个，至于1和2，可以继续分析Analyte，对于RNA数据来说，优先级R>T
对于DNA数据来说，优先级D最高
如果Analyte相同，继续比较Plate，选择较大者。
（后面的其实不重要， 我们只需知道TGCA数据库中一个患者至多对应两个样本。