今天协助销售处理客户一个分析问题,感觉很多人都会遇到,在这里记录一下。
项目场景:
从测序公司下载测序原始数据,使用Trim galore进行质控分析。
问题描述
执行脚本
trim-galore -j 1 -e 0.1 -q 20 -O 1 --trim-n -a CTGTCTCTTATA /home/projects/SRHgroup/projects/Janine_HLAC_KIR/data/rna/fastq/raw_files/18134XR-XXX_RNA_R1.fastq.gz
程序未正确执行,得到18134XR-XXX_RNA_R1.fastq.gz_trimming_report.txt 质控报告,报告内得到如下报错:
cutadapt: error: Error in FASTQ file at line 5516903: Line expected to start with '+', but found 'G'
原因分析:
报错翻译为某一行不是按照标准的fastq格式,本来应该是"+“,却识别成"G”
这里,"+"应该表示的是fq格式的第三行,识别到"G"可能是第二行reads序列行或者第四行碱基质量表示。说到底就是格式错误,但背后原因应该是文件损坏,造成rawdata的压缩文件缺失。
解决方案:
核对文件是否损坏:
1.检查文件大小与下载路径的文件大小是否一致;
2.如果公司提供md5文件,可使用md5sum -c md5.txt
命令检查数据完整性。
欢迎大家加VX:bbplayer2021 (木青)进群交流,备注 申请加入生信交流群。