免疫组库数据分析(一):windows 系统下MiXCR的安装和使用
前言:
免疫系统的T细胞或者B细胞免疫组库的多样性主要取决于抗原决定簇CDR3区域的多样性,CDR3区域有部分V基因的3端到J基因的5‘端序列构成,其中包含D基因。因此如何多维度的分析CDR3至关重要。
本系列文章分析小鼠 5’RACE实验数据,并在Windows 系统下用MIXCR进行初步分析,利用Excel进行进一步分析,利用Graphpad prism 8 以及在线绘图网站进行一系列的可视化分析。希望以少代码,多工具的方式让更多研究者能够更好的对免疫组库数据进行有效的分析。
1.准备
1.1 阅读使用方法参考文档:https://mixcr.readthedocs.io/en/latest/index.html
1.2 系统要求:Windows系统已按照Java 1.8以上。
快捷方式检测系统是否已按照:Windows+R
java -version
2.安装
-
在下载最新版稳定编译的MiXCR
-
解开压缩包
-
执行脚本中指定MiXCR的全路径来直接使用
3.使用
-
如何调用MiXCR:记住上述参考文档中《Install》章节中最后一段话:
To use mixcr from jar file one need to substitute mixcr command with
java -Xmx4g -Xms3g -jar path_to_mixcr\jar\mixcr.jar
in all examples from this manual.
无论是Linux系统还是Mac OS X 系统,即使你正确按照了MiXCR,添加到环境变量中。极有可能会出现Java虚拟机启动内存不存的问题( 在Linux系统中我被这个问题整整折磨了2天啊,结果发现使用上述MiXCR全路径的方法直接了当) -
核心参数介绍:
典型的MiXCR工作流程主要由三个部分构成:
-
基于5’RACE扩增实验的数据分析
3.1 analyze amplicon命令 一站式服务
5’RACE实验准备的TRB基因 cDNA文库双端测序的数据处理流程,全部分析流程可以通过analyze amplicon命令实现
java -Xmx4g -Xms3g -jar path_to_mixcr\jar\mixcr.jar analyze amplicon --species hs --starting-material dna --5-end v-primers --3-end j-primers --adapters adapters-present input_R1.fastq input_R2.fastq analysis
analyze amplicon命令 一站式服务 如果出现问题,我们可以进行分拆分析,比对,拼接与输出,哪一 步数据出不来,我们就从哪一步开始分析。
3.2 比对,拼接、输出 三步分析流程
- Align 把原始序列比对到TRB基因的VDJ基因序列片段上。输出文件格式是vdjca。
java -Xmx4g -Xms3g -jar path_to_mixcr\jar\mixcr.jar align -s hs -OvParameters.geneFeatureToAlign=VTranscript --report analysis.report input_R1.fastq input_R2.fastq analysis.vdjca
用来比对V基因的非默认基因特征(-OvParameters.geneFeatureToAlign=VTranscript)参数是利用了两个reads的信息,MiXCR可以让双端Reads 一端比对到V基因的5’UTRS, 另一端Reads可以比对到CDR3 反向序列中部分5’端编码区域。
MiXCR还会生成比对报告文件-report文件(通过可选参数–report指定),其中包含的具体运行统计信息如下。
Analysis Date: Mon Aug 25 15:22:39 MSK 2014
Input file(s): input_r1.fastq,input_r2.fastq
Output file: alignments.vdjca
Command line arguments: align --report alignmentReport.log input_r1.fastq input_r2.fastq alignments.vdjca
Total sequencing reads: 323248
Successfully aligned reads: 210360
Successfully aligned, percent: 65.08%
Alignment failed because of absence of V hits: 4.26%
Alignment failed because of absence of J hits: 30.19%
Alignment failed because of low total score: 0.48%
2.Assemble 拼接clonotypes
java -Xmx4g -Xms3g -jar path_to_mixcr\jar\mixcr.jar assemble --report analysis.report analysis.vdjca output.clns
这一步骤会校正PCR和测序错误并建立clonotypes,默认情况下clonotypes会拼接CDR3序列;可以通过设置assemble模块的参数来制定其他的基因区域(参考assemble documentation),可选的report文件analysis.report包含各种调试信息(analysis.report相关结果本文不展示,该部分在参考文档及文尾参考文章具有展示).
输 出格式为推荐clns,少用clna格式。因为运行时间太久,容易出错。
3.export输出可读文件
java -Xmx4g -Xms3g -jar path_to_mixcr\jar\mixcr.jar exportClones [options] clones.clns clones.txt
结果如下
Clone count | Clone fraction | … | V hits | J hits | nseq. CDR3 | AA. seq. CDR3 | … |
---|---|---|---|---|---|---|---|
4369 | 2.9E-3 | … | IGHV4-39*00(1388) | IGHJ6 *00(131) | TGTGTGAG… | CVRHKPM… | … |
3477 | 2.5E-3 | … | IGHV4-34*00(1944) | IGHJ4 *00(153) | TGTGCGAT… | CAIW*V-L… | … |
… | … | … | … | … | … | … | … |
解读:Clone count :克隆子比对到的Reads数量
Clone fraction:该克隆子占所有比对到的克隆子Reads的比例
V hits:比对分数最高的V基因
J hits:比对分数最高的J基因
nseq. CDR3:CDR3的DNA序列
AA. seq. CDR3:基于 CDR3 DNA序列翻译的氨基酸序列中。翻译从两端向中心翻译,每3个碱基翻译成一个氨基酸。*为终止密码子,’’—""为DNA序列无法翻译成氨基酸序列.凡是有以上两个情况的均无法产生有效的CDR3氨基酸序列。