在笔记本上利用vsearch+userach+qiime2搭建流程

ye00ye

已于 2022-04-11 22:26:34 修改

阅读量2.1k

点赞数 1

文章标签：学习经验分享 linux

于 2022-04-11 22:23:25 首次发布

本文链接：https://blog.csdn.net/ye00ye/article/details/124111030

版权

软件搭建

1、利用Rstudio作为代码输入端，需要安装R，Rtudio，git

2、下载win版本usearch和vsearch

3、最后qiime2在笔记本上通过虚拟机方式安装。（也可以直接利用usearch提供的silva物种注释数据库，但是没有最新版，而qiime2提供了最新版的silva数据库）

###项目分析流程

### 1、创建文件夹filename，并打开
mkdir -p filename
cd filename

### 2、在filename中创建三个子文件夹，
   mkdir -p seq temp result

   ## seq 用于存放原始序列，将测序得到的双端序列文件放入该文件夹中。如果是压缩文件，要对文件进行解压

       gzip -d seq/*.gz

### 3、进行第一步分析

   ## 3.1 创建metadata.txt文件，创建好后拖入result文件夹中

   ## 3.2 metadata.txt文件标准化
       sed -i 's/\r/\n/' result/metadata.txt
       cat -A result/metadata.txt | head -n3 ###文件结尾没有^M，可以进行下一步

   ## 3.3 双端序列合并
time for i in `tail -n+2 result/metadata.txt | cut -f 1`;do
vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq \
--fastqout temp/${i}.fq --relabel ${i}.
done &

##################1、如果中间要加入合并好的样品，则依次执行3.4，3.5，3.6；
##################2、如果中间不会加入合并好的样品，跳过3.4，直接执行3.5。在继续执行3.6时，把引物长度替换掉低51行的两个0。（以后美格的样品按此方法执行）

   ## 3.4 合并后的序列去引物，并进行质控
   time for i in `tail -n+2 result/metadata.txt | cut -f 1`;do
vsearch --fastx_filter temp/${i}.fq \
--fastq_stripleft 17 --fastq_stripright 21 \
--fastq_maxee_rate 0.01 \
--fastqout temp/${i}.fq
   done &

   #### (可选)如有其它合并好的样品，把样品放入temp文件夹

   ## 3.5 所有样品合并至一个文件
   cat temp/*.fq > temp/all.fq

   ## 3.6 第二次质控

   ###（如果3.4步不跳过，则执行此条命令）
   time vsearch --fastx_filter temp/all.fq \
--fastq_stripleft 0 --fastq_stripright 0 \
--fastq_maxee_rate 0.01 \
--fastaout temp/filtered.fa

   ####（如果3.4步跳过，则执行此条命令）
   time vsearch --fastx_filter temp/all.fq \
--fastq_stripleft 17 --fastq_stripright 21 \
--fastq_maxee_rate 0.01 \
--fastaout temp/filtered.fa

   ##查看filtered.fa格式是否正确
head -n 2 temp/filtered.fa
grep '>' temp/filtered.fa | head -n4

   ## 3.7 序列去冗余 Dereplication和去低丰度序列
   time vsearch --derep_fulllength temp/filtered.fa \
--output temp/uniques.fa --relabel Uni --minuniquesize 5 --sizeout --fasta_width 0
（此处-minuniquesize 参数可以自由调试，当得到的OTU较少时，可以降低该值）

ls -lsh temp/uniques.fa
head -n 2 temp/uniques.fa

   ## 3.8 生成otus.fa
   ../usearch -cluster_otus temp/uniques.fa \
   -otus temp/otus.fa \
   -relabel OTU_

   ## 3.9 基于参考去嵌合
   time vsearch --uchime_ref temp/otus.fa \
-db ~/silva_132.fna \ (此处数据库在silva官网下载)
--nonchimeras result/otus.fa
   sed -i 's/\r//g' result/otus.fa

   ## 3.10 生成特征表
   time vsearch --usearch_global temp/filtered.fa --db result/otus.fa \
   --otutabout result/otutab.txt --id 0.97 --threads 4

sed -i 's/\r//' result/otutab.txt
head result/otutab.txt |cat -A

   ## 3.11 利用qiime2上的数据库进行物种注释
   cd result

   conda activate qiime2-2022.2 （此处是在linux服务器上利用conda安装虚拟环境，qiime2官网有详细安装指南）

   qiime tools import \
   --input-path otus.fa \
   --output-path otus.qza \
   --type 'FeatureData[Sequence]'

   nohup qiime feature-classifier classify-sklearn \
   --i-classifier ~/silva_138.qza \
   --i-reads otus.qza \
   --o-classification taxonomy.qza &

   qza文件解压即可得到

生物信息学学习过程中，软件的安装是一个很头疼的问题，需要学者有强大的自学能力，遇到问题能自己上网搜解决方法。

欢迎交流，微信号：13011877430

ye00ye

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫