下图是Thermo质谱的原理示意图(由Thermo工程师提供)。这是QE的原理图,我们先在绿色的范围内进行一次full scan的mass扫描,然后判断当前选择的离子信号强度,以及在最近的几十秒钟之内是否对其进行扫描过。
如果没有,那么在紧接着的循环过程中,我们会对之前30秒之内(假设当前的仪器速度可以达到10个MS)没有扫描过的最强的十个谱峰进行二级碎裂,那么质谱就会依次将色谱推进来的喷雾中的肽段进行依次碎裂。
这就是DDA模式基本的原理。我们的数据也是根据这样的一个过程来记录的。
如果将刚才的扫描过程二维展开,可以得到下图,看上去跟二维凝胶电泳图很像吧?横坐标是质荷比,纵坐标是保留时间,而刚才那张图横坐标是保留时间,纵坐标是强度(LC seperation图),所以,此图没有质荷比信息。
MaxQuant的DDA数据可视化图
我们知道,在进入full scan的MS扫描时是有质荷比信息的。所以简单的讲,上图是将刚才的两张图的信息拼接,然后将整个下机数据所有的瞬间都进行了一个拼接,由于维度的限制,因此信号强度信息无法再展示了。
但在此图中用了颜色的深浅来表示保留时间,颜色深的就是相对信号较强的肽段。而图中的每一根小线段都代表一个肽段,小线段的长度对应着肽段的保留时间,加上横坐标质荷比的信息,因此通过这张全局纵览图,就能够看到我们这次实验分离的效果如何,有没有PEG、盐、或者其它污染,有没有喷雾中断等情况发生,这些都能在这张图中有一个大致的把握。
因此,这张图对于我们进行数据质控非常有用。不同的软件和仪器有不同的方法来提供这张图。此次举例用的图是由Peaks软件得来的。
我们可以在上图中选定自己感兴趣的部分,画一个小方框,将方框中的内容进行打开放大,就得到了下图我们存储数据的结果形式了。这是在Qual Browser里打开我们的数据看到的结果。
precursor
回到此图,794.03应该是一个肽段,后面三个数据是同一个肽段,这就是我们进行precursor识别的原理。有些时候质谱会识别错误,认为红框上一行的793.69更可能是同位素,这个就需要我们自己进行校正。
Percolator
那么,FDR是怎么算的呢?话说,最早提出这个评价指标是一位叫Benjamini的大爷,按照他的思路,在鸟枪法蛋白质组学中,FDR就是一把切菜刀,鉴定结果的列表就是一根香肠,p-value越小的瘦肉,放在越前面,越往后肉越肥,然后从前面开始切,切到p-value大于一个阈值,就不切了,切好的拿来炒菜,剩下的都丢掉!
这就是大名鼎鼎的The Bonferroni Method,详细的解释有兴趣的童鞋可以找文献来读,我们只需要知道的是,这种思路搞出来的切菜刀太过苛刻,符合打分的鉴定结果越多,FDR卡值越严格,而最终能被切到的香肠片却可能只是寥寥,大部分都被扔掉了!这多浪费啊,还能不能愉快地炒菜了?!
针对这种情况,后面又有各种大牛来改进思路,比如BH方法之类的,总之目的都是为了不要矫枉过正,才能在保证正确率的前提下,又能切到足够多的香肠片。目前主流的软件用到的计算方法大体分两类:
目标库诱饵库策略(Target-Decoy Approach,TDA)
这个名字看着很长,其实很简单,相信很多童鞋多多少少也听过,就是我们通常说的Decoy反库。Decoy库里的蛋白质序列一般是目标库(Target)序列的反向序列或者随机打乱后的序列,总之就是实际不存在的序列,因此发生在反库的肽谱匹配我们就认为是错误的匹配,可以用来评估FDR。
一些主流的软件都有Decoy参数,比如Mascot,如果你想使用这种方法进行质控,就勾上Decoy选项,软件就用根据你设定的目标蛋白库,自动生成一个反库,进行FDR的评估。
2
经验贝叶斯方法
看到这个名字,估计有些人就要醉了!放心,小编不会整公式出来,实在感兴趣的童鞋可以自行去读文献,大家只需要了解,它的基本策略是将每张谱图对应的最好的匹配打分分布视为正确匹配打分分布与错误匹配打分分布的混合分布,然后从混合分布中求解这两类分布,从而计算出FDR(以及PEP,后面会讲到)。
使用这个算法最有名的软件是PeptideProphet,后来还有一个更牛的改进算法Percolator(基于半监督学习模型的过滤算法),能够过滤得到更多可靠的结果。目前Percolator已经被移植到Mascot、X!Tandem、OMSSA以及MSGF+等搜索引擎中,并且都获得了很好的效果。大家用的时候心里有个谱就可以了~