Trimmomatic对下机数据进行质控

要对下机数据做质控,去接头,去除低质量碱基序列,之前总是用trimmomatic,发现学校服务器上没有这个软件,只好再重新下载、安装,重新学习一下当时用的参数都是啥意思,能不能再优化一下。

附:实验室老师用的是另一款质控、剪切一条龙的软件fastp,查了一下fastp, 优点蛮多的,鉴于时间比较紧张,先不比较两者对结果的影响了。

一、软件下载及安装

下载地址

http://www.usadellab.org/cms/index.php?page=trimmomatic

unzip解压完后就能用了

二、软件运行

Trimmomatic是一个Java程序,需要java运行,先上我的脚本:

图片

因为我是批处理,fastq_List.txt文件中按行(一行一个reads的.fq.gz文件)存储着我需要处理的序列名字,比如sample1_R1.fq.gz,下一行为sample1_R2.fq.gz。

常用参数:

PE: 双端测序

-threads 线程数,最大是CPU核数;

-Phred33 设置碱基的质量格式,使用phred + 33或phred + 64质量分数,这取决于使用的Illumina管道,默认-phred64,自v0.32版本之后可自动识别是phred33还是phred64;

-trimlog 生成日志名,建议不开这个参数,生成的log文件巨大且大多数情况下,你是不会看的;

-basein 指定输入路径及文件,需要R1和R2在同一目录下,且命名一样;

-baseout 指定输出路径及文件,结果命名会一样;

以下参数很重要,需要根据自己情况进行设定:

ILLUMINACLIP: 从reads中剪切adapter和其他Illumina特定序列,按照你的数据选择接头文件列表,TruSeq3对应HiSeq和MiSeq。

TruSeq2 (as used inGAII machines)

TruSeq3 (as used byHiSeq and MiSeq machines),

这里需要注意一下ILLUMINACLIP的位置,由于版本,平台等问题,接头文件的位置不一定相同,最好用Everything这个软件找一下,填上正确的文件路径。

SLIDINGWINDOW:执行滑动窗口修剪,一旦窗口内的平均质量低于阈值,则切割。

:,对应两个参数窗口大小(碱基数)和对应碱基序列的质量。一般就是4和15,除非数据质量实在是很差时需要自己再去调整。

LEADING:如果低于阈值质量,则在reads起始处剪切碱基,因为机器对初始几个序列检测不太准,一般默认依次把质量低于3的碱基切掉;

TRAILING:如果低于阈值质量,则在reads末尾处剪切碱基,不过没必要。尤其是当你数据是双端测序结果的时候(我设置了,影响不大,之前几批数据都设置了,为了保持一致,这次也懒的删了,算上这次,这是第三次安装这个软件了,这次才注意到这个问题,惭愧)

CROP:将reads从末尾切割为指定长度,也就是直接从中间切断丢弃尾部序列,慎用;

HEADCROP:从reads剪切后低于指定长度,切掉头部对应碱基数并丢弃,同样,慎用;

MINLEN:如果reads低于指定长度,则删除

三、结果

PE 模式的两个输入文件,四个输出文件:

sample_paired_R1.clean.fastq

sample_unpaired_R1.clean.fastq

sample_paired_R1.clean.fastq

sample_unpaired_R1.clean.fastq

图片

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
单细胞数据分析质控是在单细胞测序数据分析中的一个重要步骤,用于评估数据的质量和准确性。以下是一些常见的单细胞数据分析质控代码的介绍: 1. 数据预处理: - 数据加载:使用相应的数据加载库(如`Seurat`、`Scanpy`等)加载单细胞数据。 - 数据清洗:去除低质量细胞和低表达基因,可以根据细胞的总表达量、基因数、基因表达水平等指标进行筛选。 2. 细胞质量评估: - 细胞质量指标计算:计算每个细胞的质量指标,如总表达量、基因数、基因表达水平的均值和方差等。 - 细胞质量过滤:根据设定的阈值,过滤掉质量较差的细胞。 3. 基因质量评估: - 基因表达过滤:去除低表达基因和低变异基因,可以根据基因的表达量和变异系数进行筛选。 - 基因批次效应校正:对于多个批次的数据,可以使用批次效应校正方法(如`ComBat`)进行校正,减少批次间的技术差异。 4. 数据规范化: - 基因表达量规范化:对细胞的基因表达量进行规范化,常见的方法有TPM、CPM、FPKM等。 - 批次效应校正:对于存在批次效应的数据,可以使用一些批次校正方法(如`Scran`、`MNN`等)进行校正。 5. 数据可视化: - 细胞质量可视化:绘制细胞质量指标的分布图,如细胞总表达量、基因数的分布图。 - 基因表达可视化:绘制基因表达热图、散点图等,用于展示基因在不同细胞中的表达模式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值