转录组分析数据准备
在这之前,我们要明白,进行转录组分析,我们需要那些文件
- 测序数据
- 样本信息表
- 基因组序列(genome.fasta)
- 基因注释文件(genes.gtf)
- 蛋白序列(proteins.fasta)
其中,测序数据可以自己去公司测序,或在公开的资源网站进行下载。
样本信息表,是自己根据测序数据进行编辑。至于基因组序列,基因注释文件和蛋白序列文件,则需要自己在网上下载,今天我们就介绍怎么样从ensembl上面下载这三组数据,选择ensembl的是因为它更新快,而且数据可靠。
数据的下载
首先,我们打开浏览器输入ensembl,进入它的官网
可以在search栏里面查找自己感兴趣的物种,或者直接点击用的比较多的人,小鼠或者斑马鱼的数据,我们就以人为例,来进行下载
基因组序列文件
我们先点击Genome assembly: GRCh38.p13下面的dowload sequence(