同源基因的E-value是衡量同源性结果统计显著性的一个指标,通常用于BLAST比对或其他序列比对方法中。E-value值越小,表示比对结果越显著,同源性越高。筛选E-value的一般标准依据实验需求、数据集的大小以及假阳性率等因素。以下是常见的筛选标准:
-
E-value < 1e-5:这是最常见的筛选标准,适用于大多数基因组和转录组数据。E-value小于1e-5表示比对结果在统计上显著,不太可能是由于随机匹配所导致。
-
E-value < 1e-10:对于需要更严格筛选的情况,比如寻找非常强的同源基因时,可以选择E-value小于1e-10。这表示比对的显著性非常高,几乎没有假阳性的可能性。
-
E-value < 1e-20或更小:在一些严格的分析中,例如寻找非常保守的同源基因或高质量的参考基因组时,E-value值通常需要更小,甚至可以使用1e-20或者更低的标准。
-
视具体情况调整:有时,E-value的阈值需要根据数据的特性、数据库的大小以及对假阳性的容忍度来调整。如果数据库较小,可能不需要过低的E-value值;如果数据库非常大或序列复杂,可能需要设定更严格的标准。
通常情况下,E-value越低,表示同源性越高,但也需要平衡计算时间和假阳性率。