软件搭建
1、利用Rstudio作为代码输入端,需要安装R,Rtudio,git
2、下载win版本usearch和vsearch
3、最后qiime2在笔记本上通过虚拟机方式安装。(也可以直接利用usearch提供的silva物种注释数据库,但是没有最新版,而qiime2提供了最新版的silva数据库)
###项目分析流程
### 1、创建文件夹filename,并打开
mkdir -p filename
cd filename
### 2、在filename中创建三个子文件夹,
mkdir -p seq temp result
## seq 用于存放原始序列,将测序得到的双端序列文件放入该文件夹中。如果是压缩文件,要对文件进行解压
gzip -d seq/*.gz
### 3、进行第一步分析
## 3.1 创建metadata.txt文件,创建好后拖入result文件夹中
## 3.2 metadata.txt文件标准化
sed -i 's/\r/\n/' result/metadata.txt
cat -A result/metadata.txt | head -n3 ###文件结尾没有^M,可以进行下一步
## 3.3 双端序列合并
time for i in `tail -n+2 result/metadata.txt | cut -f 1`;do
vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq \
--fastqout temp/${i}.fq --relabel ${i}.
done &
##################1、如果中间要加入合并好的样品,则依次执行3.4,3.5,3.6;
##################2、如果中间不会加入合并好的样品,跳过3.4,直接执行3.5。在继续执行3.6时,把引物长度替换掉低51行的两个0。(以后美格的样品按此方法执行)
## 3.4 合并后的序列去引物,并进行质控
time for i in `tail -n+2 result/metadata.txt | cut -f 1`;do
vsearch --fastx_filter temp/${i}.fq \
--fastq_stripleft 17 --fastq_stripright 21 \
--fastq_maxee_rate 0.01 \
--fastqout temp/${i}.fq
done &
#### (可选)如有其它合并好的样品,把样品放入temp文件夹
## 3.5 所有样品合并至一个文件
cat temp/*.fq > temp/all.fq
## 3.6 第二次质控
###(如果3.4步不跳过,则执行此条命令)
time vsearch --fastx_filter temp/all.fq \
--fastq_stripleft 0 --fastq_stripright 0 \
--fastq_maxee_rate 0.01 \
--fastaout temp/filtered.fa
####(如果3.4步跳过,则执行此条命令)
time vsearch --fastx_filter temp/all.fq \
--fastq_stripleft 17 --fastq_stripright 21 \
--fastq_maxee_rate 0.01 \
--fastaout temp/filtered.fa
##查看filtered.fa格式是否正确
head -n 2 temp/filtered.fa
grep '>' temp/filtered.fa | head -n4
## 3.7 序列去冗余 Dereplication和去低丰度序列
time vsearch --derep_fulllength temp/filtered.fa \
--output temp/uniques.fa --relabel Uni --minuniquesize 5 --sizeout --fasta_width 0
(此处-minuniquesize 参数可以自由调试,当得到的OTU较少时,可以降低该值)
ls -lsh temp/uniques.fa
head -n 2 temp/uniques.fa
## 3.8 生成otus.fa
../usearch -cluster_otus temp/uniques.fa \
-otus temp/otus.fa \
-relabel OTU_
## 3.9 基于参考去嵌合
time vsearch --uchime_ref temp/otus.fa \
-db ~/silva_132.fna \ (此处数据库在silva官网下载)
--nonchimeras result/otus.fa
sed -i 's/\r//g' result/otus.fa
## 3.10 生成特征表
time vsearch --usearch_global temp/filtered.fa --db result/otus.fa \
--otutabout result/otutab.txt --id 0.97 --threads 4
sed -i 's/\r//' result/otutab.txt
head result/otutab.txt |cat -A
## 3.11 利用qiime2上的数据库进行物种注释
cd result
conda activate qiime2-2022.2 (此处是在linux服务器上利用conda安装虚拟环境,qiime2官网有详细安装指南)
qiime tools import \
--input-path otus.fa \
--output-path otus.qza \
--type 'FeatureData[Sequence]'
nohup qiime feature-classifier classify-sklearn \
--i-classifier ~/silva_138.qza \
--i-reads otus.qza \
--o-classification taxonomy.qza &
qza文件解压即可得到
生物信息学学习过程中,软件的安装是一个很头疼的问题,需要学者有强大的自学能力,遇到问题能自己上网搜解决方法。
欢迎交流,微信号:13011877430