获得原始测序开始:转录组数据处理流程-上游分析(上)

(1)从NCBI的SRA数据库查找感兴趣的的测序初始数据,这里用的是

盐胁迫下甘草地上部分药物活性成分和转录组的综合分析揭示了甘草素通过 ABA 介导的信号传导https://www.x-mol.com/paper/1495711702323646464/t?adv

文章里甘草(Glycyrrhiza)的SRR18163533一个样本作为例子

样本在第三个位置,进去的界面如下:

 复制左下角转录组代号SRR18163533

以下处理在LINUX环境下ubuntu系统中完成

(2)SRAtoolkit软件

该软件的功能:可以从NCBI自动下载所需原始数据,且能够将sra数据转换为fastq格式

Download------Download Tools------SRA Toolkit------选择ubuntu的版本下载

 可以直接在浏览器中下载,也可以复制下载所在链接在终端下载

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-ubuntu64.tar.gz

下载完成还只是安装包,需要对它进行解压,同样打开终端

tar zxvf sratoolkit.3.0.0-ubuntu64.tar.gz

解压完成,但是还需要配置环境(配置环境才能让该软件能够在ubuntu中进行其功能)

echo 'export PATH=$PATH:$HOME/SRAToolkit/sratoolkit.3.0.0-ubuntu64/bin ' >> ~/.bashrc
source ~/.bashrc
vdb-config --interactive    #会出现一个框架,按字母x键退出,然后就可以使用啦

现在就可以用SRAToolkit软件下载原始测序数据啦!

prefetch SRR18163533    #下载.sra文件
fastq-dump SRR18163533.sra  #将.sra文件转换成.fastq文件

(2)质量控制和预处理

下载fastqc软件,下载步骤和上面大体一样,可以从浏览器搜索fastqc官网找到其下载地址链接下载并安装、配置环境,这里不详细赘述

fastqc  -f  fastq  -o  result  SRR18163533.out.fastq

 fastq结果文件如下,关于fastqc所得到的这许多结果图的生物学意义自行查阅理解

(3)对读段数据进行过滤

Trimmomatic软件下载、安装等,该软件使用前需安装java,配置环境

 软件使用

 (4)选则参考基因组并将自己的数据进行有参比对

甘草参考基因组(fasta)的下载以及其注释文件的下载(gff3)

存放在DDBJ数据库,自行下载

 比对软件选择hista2,比tophat2准确且速度更快

官网下载、安装、配置环境

hisat2使用:

①构建参考索引

 这里的gly-ura.fasta是我的参考基因组,代码运行后会生成许多以genome为前缀的文件

②建立各种小索引,并将读段比对到参考基因组索引

 

 第一块代码是为了构建外显子索引空文件,第二块建立转录组索引空文件,第三块代码可以建立外显子和转录组索引文件

也可以写到一块

比对到参考基因组



 

详细颗参考上面链接文章

(5)转录组组装

比对完成后会获得以.sam结尾的文件

需要将sam文件转换成bam文件才能进行后续处理

下载、解压安装samtools

samtools使用:

 

 获得上面第一个文件bam结尾格式

使用samtools将.bam文件进行排序

获得上面第三个文件

 使用stringtie对读段进行组装

 

 组装完成,获得转录本数据 

(6)获得表达矩阵

htseq-count下载安装

htseq-count -r pos -f bam SRR18163533.bam SRR18163533.gtf > counts.txt --stranded=no

 

  • 7
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
测序原始数据处理可以分为以下几个步骤: 1. 数据质量控制:通过对原始数据进行质量控制,去除低质量序列以及可能存在的污染序列等。常用的质量控制工具包括Trimmomatic、fastp等。 2. 读长或read的去除或截断:对于某些数据,可能存在较长或较短的read或reads,可以根据实验需要选择合适的策略将其去除或截断。 3. 双端数据合并和拆分:双端测序数据需要将两个端的数据合并,以便进行一些装和分析;而有些分析需要用到单个端的数据,此时需要将双端数据分离。常用的数据处理工具包括Flash、PEAR、fqtools、fastq-multx等。 4. 数据格式转换:根据实验需要,将测序数据转换为不同的格式,如不同的FASTQ格式或SAM/BAM格式。常用的工具有samtools、bedtools等。 5. 处理重复序列:某些序列可能存在PCR重复或者在不同的样本中出现,需要去除这些序列以减轻后续分析的影响。常用的工具为cd-hit、PRINSEQ等。 6. 去除宿主序列和参考序列:某些实验可能需要考虑宿主污染或者之前的文献报道中可能存在的参考序列,可以根据实验需要选择相应的工具去除。 7. 装:对于一些无参考基因的数据,需要进行装,常用的装工具包括SPAdes、SOAPdenovo2、Trinity等。 8. 数据质量评估:最后,需要对数据进行质量评估,检查数据处理的结果是否符合预期。常用的工具有fastQC等。 在具体操作中,可以根据实验需求选择相应的工具和流程进行测序原始数据处理

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值