使用二代数据进行基因survey-01cleandata（持续更新中）

最新推荐文章于 2024-06-13 19:21:51 发布

彼岸花128

最新推荐文章于 2024-06-13 19:21:51 发布

阅读量1.6k

点赞数 2

文章标签：生物信息学

本文链接：https://blog.csdn.net/weixin_44616693/article/details/121521514

版权

使用二代数据进行基因survey（持续更新中）

这是本人自己测序的二代数据，公司提供的是rawdata。文库350bp。测序类型PE150。二代数据特点就是：短读长，低质量。因此第一步就是过滤数据，得到cleandata。

本人的坑：不管是处理什么数据，第一步都是观察数据，了解数据的来源，构造，是否有菌污染等。通常菌污染是进行blast，与nt库进行比对（可查看本人的另一篇文章）。

第一步：过滤数据（filter）

指标：①过滤N碱基占比>10%的reads；②过滤低质量碱基（质量低于<5）占比>20%的reads；③进行adapter的修剪（这里一种是将含有adapter的reads直接去掉，一种是剪切掉adapter保留reads）；④去除PCR重复

1. 我先进行的是出去PCR重复，使用软件FastUniq

官网下载安装包FastUniq-1.1.tar.gz

#上传软件安装包并安装
tar -zxvf ./FastUniq-1.1.tar.gz
cd FastUniq/source/
make
#你会发现在该目录下生成可执行文件fastuniq，表示安装完成
#使用，你需要提供input_list.txt（两个文件的绝对路径）
fastuniq -i ./input_list.txt -o FDSW210004734-3r_L1_1_redup.fq -p FDSW210004734-3r_L1_2_redup.fq
#-o/-p：两个输出文件
#对输出文件进行统计，可以计算去重率

其实这一步可以用下面的fastp软件进行，但是需要版本v0.22.0。但是我装的是v0.12.4，因此先用FastUniq软件去除PCR重复

2. 使用fastp，完成指标①②③，得到最终的cleandata

fastp官网，包括install、example、agruments的介绍，可自行查看

#使用conda安装fastp
conda create -n fastp
conda activate fastp
conda install -c bioconda fastp
#安装成功，fastp -v (version 0.12.4)
fastp --adapter_sequence ATCGCTACCCGAT --adapter_sequence_r2 AGATCGTCGTA -n 15 -q 5 -u 20 -f 10 -l 17 -w 8 -R FDSW210004734-3r_L1_report -j FDSW210004734-3r_L1.json -h FDSW210004734-3r_L1.html -i ./FDSW210004734-3r_L1_1_redup.fq -o ./FDSW210004734-3r_L1_1_clean.fq -I ./FDSW210004734-3r_L1_2_redup.fq -O ./FDSW210004734-3r_L1_2_clean.fq
#以上的所有参数都是本人自己根据前面数据设置的的，请大家自行斟酌使用
#--adapter_sequence/--adapter_sequence_r2：分别是read1和read2的adapter序列
#-n,--n_base_limit：N碱基占比>n值，该序列将被剔除。指标是10%，我的测序是PE150，因此设置为15
#-q,--qualified_quality_phred：碱基低质量值的阈值，默认为15，我使用5。-u,--unqualified_precent_limit：低质量碱基占比，设置为20（使用范围0~100）。这两个参数同时使用
#-f：剪切掉read1前面的多少个碱基，设置为10；-t:剪切掉read1后面的多少个碱基。-F/-T：则是read2的参数。如果使用了-f/-t，不特意设置-F/-T，则会自动设置-F/-T与-f/-t相同。
#-l,--length-required：read的最小长度。默认为15。（因为考虑到后面的kmer分析，选择17。这是本人看法）
#-w：线程数
#-R：输出的html文件中的报告的title，可自行设置。默认为fastp report
#-j：输出的json文件的名字，可自行设置。默认为fastp.json
#-h：输出的html文件的名字，可自行设置。默认为fastp.html
#-i/-I：read1/read2输入文件
#-o/-O：过滤后的read1/read2输出文件。注意：如果你的输出文件不带压缩名.gz，则不进行压缩。如使用.fq.gz为文件后缀，则进行压缩。