1.背景介绍
重要数据
- 外显子数据
- 表达数据
- 小RNA测序数据
- 拷贝数芯片
- 甲基化数据
- 蛋白质组学数据
- 临床信息
癌症背景知识
网页工具大全
- GDC
- cbioportal:按照paper来分类的
- UCSC
- FIREHOSE
- oncolnc
- gepia
- tanric
相关数据库
- GTEx
- CCLE
2.使用UCSC Xera网页工具
浏览器搜索UCSC Xera,点击Launch Xera即可以在线搜索某些癌症的信息,先在Search栏输入癌症名,根据出现的结果,选择想要检索的那个数据库,点Done;之后可以根据自己的生物学背景知识以及想要挖掘这个癌症哪方面的需求,选择合适的选项,可以不断fitter,找到自己想要的数据。
过滤完成之后,是可以在线直接画出图像的,根据图像的有关信息,初步得到一些结论。
3.使用Broad GDAC firehose网页工具
利用在线网页提供的数据进行数据库挖掘,找到一些感兴趣的基因且和疾病有较为显著的关系,然后就可以后续做生物学实验验证,是否有这样的关系。个人理解即反推验证法,通过实验数据确实能得到这样的结果,则说明确实存在这样的生物学意义(每一种影响的背后都可能对应着一种生物学机制)。
4.文章规律讲解
4.1Signatures规律
可以挖掘的东西,如图左边提到的东西,可以联合几个一起在这些癌症里面挖掘。
4.2WGCNA LASSO COX
5.数据下载方式
需要关注的数据
5.1GDC官方下载工具
GDC给出了一系列的用户友好选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,就不需要从几百个文件里面漫无目的地查找。
GDC链接: https://portal.gdc.cancer.gov/,根据自定义过滤条件拿到mainfest文件,只需要根据过滤得到的mainfest文件进行GDC下载数据即可,下载下来的文件,是每个样本一个文件夹,需要合并,需要了解为什么用XML来存储信息。
进入这个界面以后,可以选择File和Cases的格式,勾选自己想要的数据类型,比如mi-RNA,临床信息等等,宗旨经过筛选以后的样本数据就会少很多,然后点击左边的Mainfest,下载到本地,拖到服务器就可以进行后续整理,目前没有尝试,不是很清楚具体的linux命令。