使用二代数据进行基因survey(持续更新中)
这是本人自己测序的二代数据,公司提供的是rawdata。文库350bp。测序类型PE150。二代数据特点就是:短读长,低质量。因此第一步就是过滤数据,得到cleandata。
本人的坑:不管是处理什么数据,第一步都是观察数据,了解数据的来源,构造,是否有菌污染等。通常菌污染是进行blast,与nt库进行比对(可查看本人的另一篇文章)。
第一步:过滤数据(filter)
指标:①过滤N碱基占比>10%的reads;②过滤低质量碱基(质量低于<5)占比>20%的reads;③进行adapter的修剪(这里一种是将含有adapter的reads直接去掉,一种是剪切掉adapter保留reads);④去除PCR重复
1. 我先进行的是出去PCR重复,使用软件FastUniq
官网下载安装包FastUniq-1.1.tar.gz
#上传软件安装包并安装
tar -zxvf ./FastUniq-1.1.tar.gz
cd FastUniq/source/
make
#你会发现在该目录下生成可执行文件fastuniq,表示安装完成
#使用,你需要提供input_list.txt(两个文件的绝对路径)
fastuniq -i ./input_list.txt -o FDSW210004734-3r_L1_1_redup.fq -p FDSW210004734-3r_L1_2_redup.fq
#-o/-p:两个输出文件
#对输出文件进行统计,可以计算去重率
其实这一步可以用下面的fastp软件进行,但是需要版本v0.22.0。但是我装的是v0.12.4,因此先用FastUniq软件去除PCR重复
2. 使用fastp,完成指标①②③,得到最终的cleandata
fastp官网,包括install、example、agruments的介绍,可自行查看
#使用conda安装fastp
conda create -n fastp
conda activate fastp
conda install -c bioconda fastp
#安装成功,fastp -v (version 0.12.4)
fastp --adapter_sequence ATCGCTACCCGAT --adapter_sequence_r2 AGATCGTCGTA -n 15 -q 5 -u 20 -f 10 -l 17 -w 8 -R FDSW210004734-3r_L1_report -j FDSW210004734-3r_L1.json -h FDSW210004734-3r_L1.html -i ./FDSW210004734-3r_L1_1_redup.fq -o ./FDSW210004734-3r_L1_1_clean.fq -I ./FDSW210004734-3r_L1_2_redup.fq -O ./FDSW210004734-3r_L1_2_clean.fq
#以上的所有参数都是本人自己根据前面数据设置的的,请大家自行斟酌使用
#--adapter_sequence/--adapter_sequence_r2:分别是read1和read2的adapter序列
#-n,--n_base_limit:N碱基占比>n值,该序列将被剔除。指标是10%,我的测序是PE150,因此设置为15
#-q,--qualified_quality_phred:碱基低质量值的阈值,默认为15,我使用5。-u,--unqualified_precent_limit:低质量碱基占比,设置为20(使用范围0~100)。这两个参数同时使用
#-f:剪切掉read1前面的多少个碱基,设置为10;-t:剪切掉read1后面的多少个碱基。-F/-T:则是read2的参数。如果使用了-f/-t,不特意设置-F/-T,则会自动设置-F/-T与-f/-t相同。
#-l,--length-required:read的最小长度。默认为15。(因为考虑到后面的kmer分析,选择17。这是本人看法)
#-w:线程数
#-R:输出的html文件中的报告的title,可自行设置。默认为fastp report
#-j:输出的json文件的名字,可自行设置。默认为fastp.json
#-h:输出的html文件的名字,可自行设置。默认为fastp.html
#-i/-I:read1/read2输入文件
#-o/-O:过滤后的read1/read2输出文件。注意:如果你的输出文件不带压缩名.gz,则不进行压缩。如使用.fq.gz为文件后缀,则进行压缩。