- 解决方法已更新:2021.06.19丨sRNAnalyzer报错fastx_collapser补充解决办法_穆易青的博客-CSDN博客
- 摘要
- 接到一个外泌体的miRNA分析,正常来说,本来可以直接使用sRNAnalyzer进行比对和定量(见文章https://share.mubu.com/doc/5KSIFg9R9u),但是在cutadapt去接口之后,执行fastx_collapser命令就发生了报错:fastx_collapser: Invalid input: This looks like a multi-line FASTA file。研究了2天终于找到了问题所在,特此记录一下。
- 软件配置
- Python 3.8
- sRNAnalyzer(cutadapt、bowtie、fastx_toolkit 0.0.14)
- 问题描述
- 根据报错的字面意思来看,fastx_collapser遇到的序列格式出现了问题,FASTA序列变成了多条。于是我将上一步临时生成的Prinseq.fasta文件下载打开,发现了问题。
- 原来是测序序列太长了,cutadapt会将序列从87bp后自动换行。这里就产生了一个更深层次的问题,就是建库方式的选择。之前我做过的数据是使用NEB的小RNA建库。序列平均长度在35bp左右;而这个项目使用的IlluminaPE150建库。序列长度为标准150bp。因此导致了上面问题的出现。尽管sRNAnalyzer在config里可以设置建库试剂盒参数(kit),但即使设置为Illumina,软件也无法判断序列的长短导致后面fastx_collapser无法识别到正确的格式。
- 解决办法
-
#!/bin/bash for i in *_R1_001.fastq.gz; do i=${i%_R1_001.fastq.gz*}; hisat2 -p 8 -x ../../Ref/hg38/genome -1 ${i}_R1_001.fastq.gz -2 ${i}_R2_001.fastq.gz -S ${i}_align.sam 2> ${i}_align.log #比对到参考基因组,合并序列 samtools view -bS ${i}_align.sam > ${i}.tmp.bam #转换成bam文件 rm -rf ${i}_align.sam samtools sort ${i}.tmp.bam -o ${i}.bam #排序 rm -rf ${i}.tmp.bam samtools fastq ${i}.bam > ${i}_tmp.fastq #转换成fastq格式 cutadapt -m 15 -M 32 -u 3 -a AAAAAAAAAA ${i}_tmp.fastq > ${i}.fastq #保留大于15bp,小于32bp的序列,-a 为接头序列,根据实际情况来处理。 rm -rf ${i}_tmp.fastq gzip ${i}.fastq #压缩序列文件 done
- 由于sRNAnalyzer是提供不能输入双端测序的数据,因此我将序列比对到物种对应的参考基因组上,将生成的bam文件通过samtools转化为tmp.fastq,,这样就把双端的数据合并到了一起。再使用cutadapt对序列长度进行限制,这样就能够避免发生格式报错的问题了。
-
- 结果展示
2021.04.13丨sRNAnalyzer报错fastx_collapser: Invalid input: This looks like a multi-line FASTA file解决办法
最新推荐文章于 2021-07-15 22:38:47 发布