bulk RNA-Seq (1) 数据清洗

欢迎关注bioinfor 生信云!有一起想做公众号的朋友欢迎联系我!

今天我们来讲一讲bulk转录组测序的数据清洗部分。

RNA-Seq是技术相对更成熟,应用最广泛,最适合生物信息学人门的方向。bulk RNA-Seq是最普遍的转录组测序方法,所谓bulk就是我们测的是所有细胞的总RNA(mRNA)取平均值代表每个基因的表达量。

我们从公司得到的原始的下机数据是fastq格式的文件如图

FASTQ  Format (Illumina example)

我们拿到原始数据之后首先做数据的质控过滤,常用的软件包括fastp、fastqc。

首先使用fastqc得到网页版的质量报告,再使用trim_galore去除质量低的和接头序列,trim_galore可以指定接头序列也可以自主查询,还可以通过–length设定长度的阈值,小于该阈值的序列会被扔掉

fastqc -t 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz #双端测序,-t表示线程数
trim_galore -q 20  -o ./  --fastqc --paired -j 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz
#--paired表示双端测序,-q 20表示去除Phred分数低于20的序列,-o表示输出(这里指输出到当前目录下),-j表示线程数,--fastqc表示清洗之后再交给fastqc做质控

fastqc结果报告

通过网页版的报告我们可以大致的了解到我的序列的质量情况,trim_galore后基本就可以用于后续的分析了。

还有一种常用的工具是fastp,整合了fasqc与trim_galore的功能

fastp -i CER3_1_R1.fastq.gz -I CER3_1_R2.fastq.gz -o CER3_1_R1.clean.fastq.gz -O CER3_1_R2.clean.fastq.gz -j CER3_1.json -h CER3_1.html -w 2 &
#-i -I表示两个双端文件,-o -O表示输出文件,-j .json的报告,-h 网页版报告文件,-w线程数

fastp结果报告

我们经常会听到测序公司说测序的质量Q30>90%,是什么意思呢?就是说公司保证至少有90%以上的碱基错误率是小于千分之一的。类似的还有Q20(百分之一),Q40(万分之一),Q50(十万分之一)。

转录组我们一般使用fastp,做完数据清洗之后就可以进行后续分析了。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bioinfor 生信云

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值