2021.04.13丨sRNAnalyzer报错fastx_collapser: Invalid input: This looks like a multi-line FASTA file解决办法

最新推荐文章于 2021-07-15 22:38:47 发布

穆易青

最新推荐文章于 2021-07-15 22:38:47 发布

阅读量423

点赞数

分类专栏：生物信息数据处理读书笔记 miRNA

本文链接：https://blog.csdn.net/yangl7/article/details/115669482

版权

生物信息同时被 3 个专栏收录

88 篇文章 56 订阅

订阅专栏

数据处理读书笔记

31 篇文章 3 订阅

订阅专栏

miRNA

4 篇文章 0 订阅

订阅专栏

解决方法已更新：2021.06.19丨sRNAnalyzer报错fastx_collapser补充解决办法_穆易青的博客-CSDN博客
摘要
- 接到一个外泌体的miRNA分析，正常来说，本来可以直接使用sRNAnalyzer进行比对和定量（见文章https://share.mubu.com/doc/5KSIFg9R9u），但是在cutadapt去接口之后，执行fastx_collapser命令就发生了报错：fastx_collapser: Invalid input: This looks like a multi-line FASTA file。研究了2天终于找到了问题所在，特此记录一下。
软件配置
- Python 3.8
- sRNAnalyzer（cutadapt、bowtie、fastx_toolkit 0.0.14)
问题描述
- 根据报错的字面意思来看，fastx_collapser遇到的序列格式出现了问题，FASTA序列变成了多条。于是我将上一步临时生成的Prinseq.fasta文件下载打开，发现了问题。
- 原来是测序序列太长了，cutadapt会将序列从87bp后自动换行。这里就产生了一个更深层次的问题，就是建库方式的选择。之前我做过的数据是使用NEB的小RNA建库。序列平均长度在35bp左右；而这个项目使用的IlluminaPE150建库。序列长度为标准150bp。因此导致了上面问题的出现。尽管sRNAnalyzer在config里可以设置建库试剂盒参数（kit），但即使设置为Illumina，软件也无法判断序列的长短导致后面fastx_collapser无法识别到正确的格式。

解决办法

#!/bin/bash
for i in *_R1_001.fastq.gz;
do
i=${i%_R1_001.fastq.gz*};
hisat2 -p 8 -x ../../Ref/hg38/genome -1 ${i}_R1_001.fastq.gz -2 ${i}_R2_001.fastq.gz -S ${i}_align.sam 2> ${i}_align.log #比对到参考基因组，合并序列

samtools view -bS ${i}_align.sam > ${i}.tmp.bam #转换成bam文件
rm -rf ${i}_align.sam
samtools sort ${i}.tmp.bam -o ${i}.bam #排序
rm -rf ${i}.tmp.bam
samtools fastq ${i}.bam > ${i}_tmp.fastq #转换成fastq格式
cutadapt -m 15 -M 32 -u 3 -a AAAAAAAAAA ${i}_tmp.fastq > ${i}.fastq #保留大于15bp，小于32bp的序列，-a 为接头序列，根据实际情况来处理。
rm -rf ${i}_tmp.fastq
gzip ${i}.fastq #压缩序列文件
done

由于sRNAnalyzer是提供不能输入双端测序的数据，因此我将序列比对到物种对应的参考基因组上，将生成的bam文件通过samtools转化为tmp.fastq,,这样就把双端的数据合并到了一起。再使用cutadapt对序列长度进行限制，这样就能够避免发生格式报错的问题了。

结果展示

穆易青

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
2021.04.13丨sRNAnalyzer报错fastx_collapser: Invalid input: This looks like a multi-line FASTA file解决办法

摘要接到一个外泌体的miRNA分析，正常来说，本来可以直接使用sRNAnalyzer进行比对和定量（见文章https://share.mubu.com/doc/5KSIFg9R9u），但是在cutadapt去接口之后，执行fastx_collapser命令就发生了报错：fastx_collapser: Invalid input: This looks like a multi-line FASTA file。研究了2天终于找到了问题所在，特此记录一下。软件配置 Python 3.8 sR
复制链接

扫一扫