生信小白都会的转录组数据分析流程

在Galaxy生信云平台,无需任何代码,即可从下机数据开始,分析得到转录组的表达量矩阵。

有了生物信息界的新物种,生信云。从此不需要购置服务器,不需要学习编程,生信小白也可以进行生物信息数据分析了。

工具地址

Galaxy中国(UseGalaxy.cn)> RNA ANALYSIS TOOLS > Standard Analysis > 有参转录组标准分析

功能描述

本工具用于转录组二代测序数据的标准分析,可生成表达量矩阵和测序数据质控结果。


这是一套非常流行的转录组定量分析流程,即 Hisat2 + Stringtie 经典组合,其步骤为:

  1. fastp,进行质量控制,去除测序数据中不合格的序列,保留高质量序列用于后续分析;

  2. hisat2,将经过质控得到的 Clean data,比对到参考基因组上;

  3. samblaster,去除PCR或光学重复;

  4. samtools,去除不合格的比对序列,将 SAM 文件转换成 BAM 文件;

  5. stringtie,结合 hisat2 得到的比对文件(BAM)和基因组注释文件(GTF),进行定量分析,得到每个样本的表达量文件(FPKM / TPM);

  6. prepDE.py,将 FPTM / TPM 转化为 Counts 计数的表达量矩阵,用于后续差异基因等分析。

操作步骤

1. 创建一个新的历史面板

在网站右侧的历史面板上方,点击 + 号,创建一个新的历史面板,可以为新面板取一个名字,如:Three Yeast Test。

daa996d158dbd1e7ad54bfb08e958508.png

2. 数据准备

2.1 共享数据的使用方法

如果使用测试数据,可以在网站上方菜单栏,找到:

  • 数据共享 > 数据库 > RNA-seq > Three Yeast

8de30876fda3969bd41c692fd82eeabc.png

可以看到6个Fastq文件,是3个酵母样本的双端测序数据(抽样数据用于工具测试) 。

  • 全选6个Fastq文件。

  • 点击上方 Add to History 按钮,点击 as Datasets,将数据添加到刚才新建的历史面板。

b35408f5d0db25583f9ccca9d9682d4c.png

回到网站主页,可以在历史面板中看见刚才添加的6个Fastq文件:

d2c0ca985c31a8d255487ea4edc262fc.png

至此我们学习了添加共享数据到历史面板的方法。

2.2 自有数据的上传方法

我们再来看看如何上传自己的数据,同样,增加一个新的历史面板,并为其取一个有意义的名称,如 RNAseq Test Using Tree Yeast。

  • 点击网站左侧的 Upload Data。

4fd90359db3162cc65c0fa4f0bdbc83a.png

  • 点击 选择本地磁盘文件。

ae362c5fb83866f43f8563fdc95478c3.png

  • 选择要上传的Fastq文件(可以多选),点击 打开。

fac8745eaeba2b57f10e0fbef753260a.png

  • 回到上传工具界面,点击开始。

27da3c755b5920681cdbf695aacb6836.png

  • 点击 Close 等待上传完成。历史面板中的文件名都变成绿色后,表示上传完成。

e177602d27c82a098feb0f7976c916f6.png

3. 制作 List of Pairs

放松,不要被概念吓倒,其实就是把所有Fastq文件的文件名放到一个列表中。

  • 点击历史面板中的 选择按钮,然后点击 Select All。

d0dbc8554f1322a2ded8f5daaf7f52cf.png

  • 然后占开下拉菜单,点击 Build List of Dataset Pairs。

16ce4f0e06749bc2544c81fe2a245775.png

在弹出的界面中,可以看到,6个Fastq文件已经自动配成3对了(来自于同一个样本的Read1 / Read2配对)。

927a0c3b56568c285c93165248bd1687.png

绿色部分:

  • 左边是 Read 1

  • 右边是 Read 2

  • 中间是样本名

这时候可以看到,中间的所有样本名最后都有一个 .fastq 后缀,说明自动配对得不完美,我们可以指定Fastq文件的后续,实现更加精确的配对。

PS:当然这不是必须的,现在配对的情况已经可以用于后续分析了,我们去掉样本名中的.fastq后缀,仅仅是为了视觉上更简洁。

  • 点击 Unpair All,可以看到数据变成了未配对状态。

bfe95f3295e62b26f0c90187c4769b57.png

  • 我们指定更精确的Fastq文件名后缀。在左侧文本框输入:_1.fastq.gz,在右侧文本框输入:_2.fastq.gz。然后点击 Auto-pair。

84827ea598fc05360f2db1da60779c49.png

可以看到,现在匹配得更加精确。

  • 我们为数据集取一个名字,如:Theee Yeat RNA,点击 Create collection 即可。

回到历史面板,我们看到,原来的Fastq文件已经隐藏了,面板中出现了一个新的数据集:

af1d7866d3ca03b2bc8fd1354ccb4a3a.png

现在,我们可以正式运行转录组工具了。

4. 运行工具

进入工具页面:

ea57b3a96db9b3e3ed5a9c96b70b7f01.png

  • 测序数据:选择刚才创建的数据集。

  • 参考基因组:选择 Yeast (partial genome, just for test),因为我们教程中用的是3个酵母样本测序数据的一小部分用于工具测试。

目前支持人类 GRCh37 / GRCh38 基因组。如果没有你需要的基因组,请联系管理员添加。

  • Dry Run,该按钮为 Yes,会生成流程的任务脚本,不会执行,通常用于测试设置的完整性,在此保持默认值:No

  • 点击 Run Tool,等待分析结果。

5. 任务查看

历史面板中结果文件名的前面一直在转圈,说明任务正在运行。

9028125ced218bfc7e80f85099601140.png

若转圈停止:

  • 结果文件名变为绿色,表示任务运行成功。

  • 结果文件名变为红色,表示任务运行失败。

8eed9fef0b5caf3862195c9c5b1e755c.png

最后:

  • 点击文件旁的 眼睛 图标,可以查看文件内容。

  • 点击文件名,待文件区域展开后,再点击 磁盘 图标,即可下载结果文件。

dc8b83de32d035339907de319dfd4af6.png

关于简说基因

  • 生信平台

    Galaxy中国(UseGalaxy.cn)致力于打造中国人的云上生物信息基础设施。大量在线工具免费使用。无需安装,用完即走。活跃的用户社区,随时交流使用心得。

  • 生信分析

    我们能够承接所有 NGS 组学数据分析业务,包括但不限于 WGS / WES / RNA-seq 等。基因组组装、注释,以及各种重测序业务都可以与简说基因合作。

  • 生信培训

    简说基因的生信培训班,荣获学员的一致好评。如果你也对生物信息学感兴趣,欢迎来跟简说基因,学真生信

  • 联系方式

    QQ交流群(免费):925694514

    微信交流群(免费):加微信好友,邀请入群

    客服微信:usegalaxy

90c040176273a917131a34c903eec78f.png


  • 21
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值