前面说到Science封面文章用的16S数据分析流程有qiime2的插件版本,可以解决基于matlab MCR standalone版本的报错,于是实践一下!https://github.com/jwdebelius/q2-sidle
conda的安装就不表了,教程挺多的。
环境准备
安装qiime2-2020.11
作者说只测试了兼容这个版本,于是就装这个啦!
# 激活环境
source ~/data_home/Miniconda3/bin/activate
# 下载配置文件
wget https://data.qiime2.org/distro/core/qiime2-2020.11-py36-linux-conda.yml
# 修改配置为镜像,加速下载和安装,这里用的是北外的,conda的配置也要同样的镜像,防止冲突
vi qiime2-2020.11-py36-linux-conda.yml
# channels:
- qiime2/label/r2020.11
- https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge
- https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda
- defaults
# 安装
conda env create -n qiime2-2020.11 --file qiime2-2020.11-py36-linux-conda.yml
# 激活环境
conda activate qiime2-2020.11
# 安装插件和相关依赖
conda install dask regex
conda install -c conda-forge -c bioconda -c qiime2 -c defaults xmltodict
pip install git+https://gitee.com/zd200572/RESCRIPt.git
pip install git+https://gitee.com/zd200572/q2-sidle
qiime dev refresh-cache
# 安装完成
# 数据库准备
wget https://gitee.com/zd200572/q2-sidle/raw/main/docs/tutorial_data/database.zip
unzip database.zip
cd database
# 两个文件
# sidle-db-full-sequences.qza, 全长数据库
# sequences and sidle-db-taxonomy.qza 物种注释
# 可视化看下 5649条序列,这么少?
qiime feature-table tabulate-seqs \
--i-data sidle-db-full-sequences.qza \
--o-visualization sidle-db-full-sequences.qzv
# 去除序列中有过多简并的,这里是3个,99%的标准
qiime sidle filter-degenerate-sequences \
--i-sequences sidle-db-full-sequences.qza \
--p-max-degen 3 \
--o-filtered-sequences sidle-db-full-degen-filtered-sequences.qza
# 去除没有门或者界信息的物种 剩余5400条左右
qiime taxa filter-seqs \
--i-sequences sidle-db-full-degen-filtered-sequences.qza \
--i-taxonomy sidle-db-taxonomy.qza \
--p-exclude "p__;,k__;" \
--p-mode contains \
--o-filtered-sequences sidle-db-full-degen-filtered-phylum-def-sequences.qza
未完待续