(1)from <有效HTM L文本信息抽取方法的研究木>
为了评估选择算法的优劣,本文采用了两个指标进行评
价,分别是阴性率(false negatives rate,FN)与假阳性率(false
positives rate,FP)。设Ⅳ代表选择的总行数,rg、m分别代表结
果中非文本行的数量与漏选的文本行数量,FN与f'P的计算用
如下公式表示:
FN=m/n.F'P=n/N
‘
其中:FP表示选择过程中选择了错误行的比例;FN表示选择
过程中漏选了正确行的比例。这两个指标经常被用来衡量选
择一类算法的优劣,是非常重要的两个指标。这两个指标与被
用来评估信息检索和TOP·K查询技术的关键指标,即查全率
(precision)和查准率(recall)效果相同,所以选择这两个指标
具有较好的说明力。图3显示了Sina与Sohu两个网站网页的
阈值在0.4一O.6下的FP与FN的效果。
从图3中可以看出两个特征:
a)不同的阈值对选择的效果存在较大的差异。例如图3
(b)中FP在阈值0.42与0.6处相差0.06;(a)中FN在阈值
O.42与0.6处相差0.03。
b)如果选择恰当的阈值,那么可以简单得到较好的FP与
FN;但是每个网站网页的特征不同,阈值需要进行调整。
利用相对固定的阈值控制行的选择,在处理风格相近的网
页有较好的效果,但存在两个问题:a)需要对不同的网页选择
不同的阈值,才可能达到较好的效果;b)虽然选择阈值可以改
善选择效果,但是某些短文本还是被过滤掉了,同样较长的版
权、注释以及与其相关链接却被选择中。
分析固定阈值实验结果,可以触发两个想法:a)可以对网
页进行阈值的自动选择和输出,从丽提高查准率和查全率Ib)
固定的阈值难以处理较长的非文本行以及短文本行,如果针对
网页的上下文进行学习,利用智能方法直观上分析可以提高查
准率和查全率。
(2)FROM 基于MapReduce的巧叶斯文本分类器
4.4.1实验设计
通常我们评价每个类别的分类效果时会用准确率、召回率、F1值。这种情况下,
只需H个统计值就能计算,即判断属于某类别且实际就是该类别的文本数A,判断属
于某类别而实际不是该类别的文本数B,判断不属于某类别但实际是该类别的文本
数C。"
由此可&看出,当特征维数加大时,分类效果会有所改善。而且本文的CDMT
方法效果优于MI方法。当特征选擇维数达到9000维时,分类结果趋于稳定且已经
能够得到良好分类效果。为此,使用搜狗语料库进行验证实验时,将通过CDMT方
法选择9000维的规模来构建恃征词库。得到如图4.7所示的实验结果。