文章目录
安装配置conda
使用清华源下载sh脚本并安装
# 使用清华源下载sh脚本
wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 从官网下载最新版Miniconda3安装包,但速度较慢
wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
下载完成后直接运行脚本文件bash Miniconda3-latest-Linux-x86_64.sh
。需要输入yes然后等待安装完毕
最后安装好后,还不能马上使用conda,需要source一下bashrc
# 激活bashrc
source ~/.bashrc
注意⚠️:
- conda会在bashrc中写入脚本,连接ssh自动进入conda环境的命令。如果不需要可以运行命令及性能配置
conda config --set auto_activate_base false
- 另外如果使用zsh等工具如果没有自动写入zshrc,可以在文件中手动写入。
- 如果conda命令不被读取,可以手动定义环境变量
export PATH="/home/super/miniconda3/bin:$PATH"
设置镜像源
# 下面这四行配置清华大学的bioconda的channel地址,国内用户推荐
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
## 官网默认
conda config --add channels r
conda config --add channels conda-forge
conda config --add channels bioconda
在设置后镜像或者设置不自动进入base后,会在.condarc文件中自动生成config信息。如下:
$ cat .condarc
auto_activate_base: false
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- defaults
conda环境创建
创建一个python2的环境管理:
conda create -y -n rna_seq python=3
# -y 自动确认
# -n 新环境名字
# python=3 新环境中python=3
激活和退出环境
conda activate <conda_name> #激活某环境
conda decativate <conda> #取消激活某环境
conda安装软件
在软件环境中使用命令安装软件
conda install -y sra-tools #安装sra-tool软件,可以通过空格安装多个软件
conda install -y sra-tools fastqc trim-galore hisat2 subread multiqc samtools salmon fastp
conda软件安装位置和普通软件安装位置不一样,通过which <softname>
来查看conda安装的软件位置
质量评估 @ fastQC
fastq格式
FastQ格式描述:https://mp.weixin.qq.com/s/8g-oUjiEhV4cGMJNuhmISQ
FastQ格式wiki:https://en.wikipedia.org/wiki/FASTQ_format
FastQ格式文献:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/
概念
FastQ格式是序列格式中常见的一种,它存储了生物序列以及相应的质量评价,其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
格式说明
FASTQ文件中每个序列通常有四行:
- 1.第一行:必须以“@”开头,后面跟着唯一的序列ID标识符,然后跟着可选的序列描述内容,标识符与描述内容用空格分开;
- 2.第二行:序列字符(核酸为[AGCTN]+,蛋白为氨基酸字符);
- 3.第三行:必须以“+”开头,后面跟着可选的ID标识符和可选的描述内容,如果“+”后面有内容,该内容必须与第一行“@”后的内容相同;
- 4.第四行:碱基质量字符,每个字符对应第二行相应位置碱基或氨基酸的质量,该字符可以按一定规则转换为碱基质量得分,碱基质量得分可以反映该碱基的错误率。这一行的字符数与第二行中的字符数必须相同。
FsatQC软件
FastQC质量评估软件官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
注意⚠️
- fastqc可以对
*.bam
*.sam
*.fq
*.fq.gz
进行质量评估。 - fastqc可以通过
-t
指定多线程操作,多线程是同时处理多个输入文件,几个线程可以同时处理几个文件,单个文件使用多线程似乎没有意义 - 对bam质量评估和对过滤后、指控后的文件使用fastqc似乎没有区别
- 在bash中批处理比较简单,但是zsh中,不太一样,需要在命令替换出使用
echo $list
常用参数:
# 常用参数
fastqc -o <out.dir> -t <thred_num> -f <input_format> <input_file_1> <input_file_2> ...
# -o 设置输出目录
# -t 设置线程数
# -f 设置输入文件格式
批处理
# bash中
a=`ls *.fq`
fastqc -o ./fastqc_raw -t 10 $a
# zsh中
b=`ls -C *.fq`
fastqc -o ./fastqc_raw -t 10 `echo $b`
multiqc综合所有qc
使用multiqc来把所有的质量评估放在一起观察
multqc -o <out.path> *.fastqc.zip
结果解读
单一碱基占比
unique reads 的占比,
单碱基测序质量在150bp上的分布情况
也有这样的
当前RNA-seq测序技术,测序错误率分布存在以下两个特征。
- 测序错误率随着测序序列(Sequenced Reads)长度的增加而升高。这是由测序过程中化学试剂的消耗导致的,为Illumina高通量测序平台所具有的特征。
- 前6个碱基具有较高的测序错误率,此长度恰好为RNA-seq建库过程中反转录所需的随机引物长度。前6个碱基测序错误率较高是因为随机引物和RNA模版的不完全结合(Jiang et al.)。
测序质量的分布图
和单碱基测序质量在150bp上的分布情况不同,这个是单个样本中,碱基质量的分布情况。绝大部份集中在Q30以上,效果良好(类似于密度分布图)
GC含量测定
1.整体GC含量测定,主要看是否有双峰,如果有双峰可能有其他物种掺入。(GC含量在物种间存在一定特异性)
2.单碱基GC(TAN)在150bp上的分布情况。理想情况是四条线在25%轻微波动,但是如所见,前几个bp非常不稳定。这是由于反转录过程中所使用的6bp随机引物,会引起前几位碱基在核苷酸组成上有一定偏好性,产生正常波动,随后则趋于稳定。