下机数据处理：拼接、过滤和去嵌合

最新推荐文章于 2024-07-11 18:01:24 发布

一条gai一辆车

最新推荐文章于 2024-07-11 18:01:24 发布

阅读量7.4k

点赞数 3

分类专栏： 16s

本文链接：https://blog.csdn.net/yangzhugou/article/details/110405677

版权

本文详细介绍了下机数据处理的三个关键步骤：使用FLASH软件进行reads拼接，通过QIIME1进行tags过滤以去除低质量序列，以及运用uchime_ref进行去嵌合体操作，确保16S测序数据的质量。整个过程旨在从原始序列中获取高质量的有效数据，用于后续的OTU聚类和微生物群落分析。

摘要由CSDN通过智能技术生成

下机数据处理：拼接、过滤和去嵌合

参考链接：https://mp.weixin.qq.com/s/aHCMS2yXsAGtmrE8VkDAbg

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RIanoUPR-1606740390975)(C:\Users\12759\AppData\Roaming\Typora\typora-user-images\image-20201129161922274.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-of48x4Wd-1606740390984)(C:\Users\12759\AppData\Roaming\Typora\typora-user-images\image-20201129162004285.png)]

数据包含腹泻D和健康H断奶仔猪，有1、3、7、11个时间点，每个时间点有8个样本（D1有6个，H1无H1.6）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2C9zaLfR-1606740390986)(C:\Users\12759\AppData\Roaming\Typora\typora-user-images\image-20201129162410489.png)]

混合双端、V3-V4区域测序，00.RawData已经进行了样本拆分、barcode去除和引物切除。每个样本文件夹里有5个文件，第一个extendedfrags.fastq文件是拼接后的序列，raw_1fq.gz和raw_2.fq.gz是未去barcode和引物的双端序列；最后两文件是去掉引物和barcode后的原始数据。

处理过程：先将双端序列进行合并，即reads拼接，用的是flash软件，得到extendedfrags.fastq文件；然后利用qiime1 的split_libraries_fastq.py软件过滤掉低质量序列，即tags过滤或质控，得到.fna文件；再利用vsearch软件进行嵌合体过滤。

01Reads拼接

首先根据Barcode序列和PCR扩增引物序列从下机数据中拆分出各样本数据，截去Barcode和引物序列后使用FLASH软件对每个样本的reads进行拼接，得到的拼接序列为原始Tags数据（Raw Tags）。

FLASH拼接的流程：

a. PE reads比对，找到overlap；

b. 当overlap大于设定的最小overlap值时，执行下面操作：

1）计算overlap长度；

计算错配的数目和overlap的长度两者的比值作为overlap的错配率；
如果计算所得overlap错配率小于现有最优overlap错配率，则将其存为新的最优overlap；
如果错配率和最优overlap一致，计算overlap中所有错配的平均质量值；如果这个平均质量值高于现有最优overlap，则将其存为新的最优overlap；

5）此外，flash软件考虑到 3’端序列质量存在系统性降低趋势，其会根据片段长度在保证PE reads重叠区长度的基础上在3’

最低0.47元/天解锁文章

一条gai一辆车

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
下机数据处理：拼接、过滤和去嵌合

下机数据处理：拼接、过滤和去嵌合下机数据处理：拼接、过滤和去嵌合参考链接：https://mp.weixin.qq.com/s/aHCMS2yXsAGtmrE8VkDAbg[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RIanoUPR-1606740390975)(C:\Users\12759\AppData\Roaming\Typora\typora-user-images\image-20201129161922274.png)][外链图片转存失败,源站可能有防盗
复制链接

扫一扫