零基础入门转录组分析——第二章(数据的准备)
(我这里使用的虚拟机是vmwarewokstation,版本16.0.0, linux系统是ubantu64位,版本20.04.3)
本文选用的是模式生物——C57BL/6J小鼠,小鼠的基因组研究已经比较透彻,因此本文的转录组分析又被称为有参转录组
转录组数据主要由三个成分组成:原始数据,参考基因组以及参考基因组的注释信息
1. 准备原始数据
原始数据一般是送样给公司检测后得到XXX.fq.gz文件,如图所示(Windows界面):
并且我这里是双端测序在.fq.gz前面还会有1/2的数字标识(原始数据的命名方式根公司有关,不同的公司命名不同,后期可以自己修改命名)。
如下图是修改命名后的文件(Windows界面):红线以上是药物处理组6个样本,红线以下是对照组6个样本
现在我们已经有了修改命名后的原始数据,需要将这些文件复制到linux系统中供后续分析使用,接下来打开linux操作系统,我们可以看到桌面下什么文件夹都没有。
打开终端,通过cd Desktop/
指令,切换到桌面目录下(如下图所示):
输入指令:mkdir 00_raw_data
和mkdir 01_ref
创建两个文件夹
(1)raw_data文件夹用来存放原始数据
(2)ref文件夹用来存放参考基因组。
关闭终端,这时我们就能看到桌面下多了两个新的文件夹。
之后双击中打开00_raw_data文件夹,直接将windows系统里的原始文件拖拽到00_raw_data文件夹中
这样,原始数据就准备好了!
2. 准备参考基因组
这里我们选用Ensembl数据库
Ensembl数据库链接地址:ftp://ftp.ensembl.org/pub,打开网址后,我们可以看到一大堆英文命名的文件夹,对应每个物种的英文名,我们用的是C57BL/6J,对应的英文名是:Mus musculus,因此往下找到名为**mus_musculus/**的文件夹。
点开文件夹后,接下来我们打开dna文件夹
这个文件夹里会存放C57BL/6J小鼠每条染色体参考基因组,以及所有染色体汇总的参考基因组文件。
这里我们选择所有染色体汇总的参考基因组,如图所示:
文件下载方式:
(1)鼠标左键点击一下这个蓝色的链接就能获取下载(这种下载方式会下载到windows本地存储中)。
(2)另一种下载方式是右键点击蓝色链接后有一个复制链接地址,复制到转到linux终端中输入:wget 复制的链接
可直接下载到Linux中。
如果是第一种下载方式,跟准备原始数据一样,直接拖拽到Linux桌面下创建的01_ref文件夹中即可。
如果选择第二种下载方式,最好先切换到01_ref文件夹路径下再输入wget指令。如图所示:
3. 准备参考基因组注释文件
这里我们还是选用Ensembl数据库
打开网址后,我们先回退到上级目录
在上级目录中,我们重点关注两个文件夹,一个是fasta文件夹,这个就是刚才下载参考基因组的文件夹,另外一个就是gtf文件夹,这里存放着物种参考基因组注释文件,我们点击图中gtf文件夹。
点开后摁ctrl+f搜索mus_musculus/即可找到C57小鼠的参考基因组注释文件夹,点开文件夹后我们可以看到有5个文件,第四个文件就是我们所需要的参考基因组注释文件。
文件下载方式依然是两种:
(1)直接下载到本地,下载到本地的也需要拖拽到linux中01_ref文件夹下。
(2)在linux系统中切换到01_ref目录下用wget指令下载。
上述就是数据准备的所有过程,有了这些文件,后续操作就可以顺利进行了!
**后续内容会逐渐更新,欢迎关注,如果觉得本教程对你有所帮助,多多点赞加关注昂,我们下期再见!!!**