python：批量汇总统计fastq文件序列数、碱基数、GC%、MaxLength、MinLength

最新推荐文章于 2021-04-28 22:31:28 发布

wait fou you

最新推荐文章于 2021-04-28 22:31:28 发布

阅读量2.9k

点赞数

文章标签： python 算法大数据 hadoop mysql

本文链接：https://blog.csdn.net/weixin_48794920/article/details/107324197

版权

python：文件查询，统计fastq序列数、碱基数、GC%、MaxLength、MinLength

前面写了类似的上篇，用来处理一个样品的测序数据。这篇可以处理多个测序数据。

一、输入数据
tree rawdata
rawdata
├── CON1_R1.fastq
├── CON1_R2.fastq
├── CON2_R1.fastq
├── CON2_R2.fastq
├── CON3_R1.fastq
├── CON3_R2.fastq
├── TREAT1_R1.fastq
├── TREAT1_R2.fastq
├── TREAT2_R1.fastq
├── TREAT2_R2.fastq
├── TREAT3_R1.fastq
└── TREAT3_R2.fastq
或者

tree Clean_data/
Clean_data/
├── CON1_1.fastq
├── CON1_2.fastq
├── CON2_1.fastq
├── CON2_2.fastq
├── CON3_1.fastq
├── CON3_2.fastq
├── TREAT1_1.fastq
├── TREAT1_2.fastq
├── TREAT2_1.fastq
├── TREAT2_2.fastq
├── TREAT3_1.fastq
└── TREAT3_2.fastq
二、python3实现
2.1 思路：
1 写序列统计函数
2 读取文件名，split，获取样品名
3 re.findall确定后缀【列表排序后取后缀，保证分别是R1，R2】
4 函数处理文件
5 格式化输出

最低0.47元/天解锁文章

wait fou you

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
python：批量汇总统计fastq文件序列数、碱基数、GC%、MaxLength、MinLength

python：文件查询，统计fastq序列数、碱基数、GC%、MaxLength、MinLength前面写了类似的上篇，用来处理一个样品的测序数据。这篇可以处理多个测序数据。一、输入数据tree rawdatarawdata├── CON1_R1.fastq├── CON1_R2.fastq├── CON2_R1.fastq├── CON2_R2.fastq├── CON3_R1.fastq├── CON3_R2.fastq├── TREAT1_R1.fastq├── TREAT1_
复制链接

扫一扫