在Galaxy生信云平台,无需任何代码,即可从下机数据开始,分析得到转录组的表达量矩阵。
有了生物信息界的新物种,生信云。从此不需要购置服务器,不需要学习编程,生信小白也可以进行生物信息数据分析了。
工具地址
Galaxy中国(UseGalaxy.cn)> RNA ANALYSIS TOOLS > Standard Analysis > 有参转录组标准分析
功能描述
本工具用于转录组二代测序数据的标准分析,可生成表达量矩阵和测序数据质控结果。
这是一套非常流行的转录组定量分析流程,即 Hisat2 + Stringtie 经典组合,其步骤为:
fastp,进行质量控制,去除测序数据中不合格的序列,保留高质量序列用于后续分析;
hisat2,将经过质控得到的 Clean data,比对到参考基因组上;
samblaster,去除PCR或光学重复;
samtools,去除不合格的比对序列,将 SAM 文件转换成 BAM 文件;
stringtie,结合 hisat2 得到的比对文件(BAM)和基因组注释文件(GTF),进行定量分析,得到每个样本的表达量文件(FPKM / TPM);
prepDE.py,将 FPTM / TPM 转化为 Counts 计数的表达量矩阵,用于后续差异基因等分析。
操作步骤
1. 创建一个新的历史面板
在网站右侧的历史面板上方,点击 + 号,创建一个新的历史面板,可以为新面板取一个名字,如:Three Yeast Test。
2. 数据准备
2.1 共享数据的使用方法
如果使用测试数据,可以在网站上方菜单栏,找到:
数据共享 > 数据库 > RNA-seq > Three Yeast
可以看到6个Fastq文件,是3个酵母样本的双端测序数据(抽样数据用于工具测试) 。
全选6个Fastq文件。
点击上方 Add to History 按钮,点击 as Datasets,将数据添加到刚才新建的历史面板。
回到网站主页,可以在历史面板中看见刚才添加的6个Fastq文件:
至此我们学习了添加共享数据到历史面板的方法。
2.2 自有数据的上传方法
我们再来看看如何上传自己的数据,同样,增加一个新的历史面板,并为其取一个有意义的名称,如 RNAseq Test Using Tree Yeast。
点击网站左侧的 Upload Data。
点击 选择本地磁盘文件。
选择要上传的Fastq文件(可以多选),点击 打开。
回到上传工具界面,点击开始。
点击 Close 等待上传完成。历史面板中的文件名都变成绿色后,表示上传完成。
3. 制作 List of Pairs
放松,不要被概念吓倒,其实就是把所有Fastq文件的文件名放到一个列表中。
点击历史面板中的 选择按钮,然后点击 Select All。
然后占开下拉菜单,点击 Build List of Dataset Pairs。
在弹出的界面中,可以看到,6个Fastq文件已经自动配成3对了(来自于同一个样本的Read1 / Read2配对)。
绿色部分:
左边是 Read 1
右边是 Read 2
中间是样本名
这时候可以看到,中间的所有样本名最后都有一个 .fastq 后缀,说明自动配对得不完美,我们可以指定Fastq文件的后续,实现更加精确的配对。
PS:当然这不是必须的,现在配对的情况已经可以用于后续分析了,我们去掉样本名中的.fastq后缀,仅仅是为了视觉上更简洁。
点击 Unpair All,可以看到数据变成了未配对状态。
我们指定更精确的Fastq文件名后缀。在左侧文本框输入:_1.fastq.gz,在右侧文本框输入:_2.fastq.gz。然后点击 Auto-pair。
可以看到,现在匹配得更加精确。
我们为数据集取一个名字,如:Theee Yeat RNA,点击 Create collection 即可。
回到历史面板,我们看到,原来的Fastq文件已经隐藏了,面板中出现了一个新的数据集:
现在,我们可以正式运行转录组工具了。
4. 运行工具
进入工具页面:
测序数据:选择刚才创建的数据集。
参考基因组:选择 Yeast (partial genome, just for test),因为我们教程中用的是3个酵母样本测序数据的一小部分用于工具测试。
目前支持人类 GRCh37 / GRCh38 基因组。如果没有你需要的基因组,请联系管理员添加。
Dry Run,该按钮为 Yes,会生成流程的任务脚本,不会执行,通常用于测试设置的完整性,在此保持默认值:No
点击 Run Tool,等待分析结果。
5. 任务查看
历史面板中结果文件名的前面一直在转圈,说明任务正在运行。
若转圈停止:
结果文件名变为绿色,表示任务运行成功。
结果文件名变为红色,表示任务运行失败。
最后:
点击文件旁的 眼睛 图标,可以查看文件内容。
点击文件名,待文件区域展开后,再点击 磁盘 图标,即可下载结果文件。
关于简说基因
生信平台
Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。
生信分析
我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。
生信培训
简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信。
联系方式
QQ交流群(免费):925694514
微信交流群(免费):加微信好友,邀请入群
客服微信:usegalaxy