BOW使用指南

最新推荐文章于 2024-08-18 21:50:43 发布

orisun

最新推荐文章于 2024-08-18 21:50:43 发布

阅读量1.2k

点赞数

分类专栏： NLP DM AI

本文链接：https://blog.csdn.net/zhangchaoyangsun/article/details/8470194

版权

本文介绍了BOW（bag-of-words）工具包中的rainbow、arrow和crossbow三个程序的用途和用法。rainbow用于文本分类，通过建立模型并进行测试，支持多种参数调整；arrow专注于文本检索，利用TF-IDF进行索引和检索；crossbow则用于文本聚类。此外，文章还详细展示了如何使用这些工具进行文档处理和分类任务。

摘要由CSDN通过智能技术生成

先规范一下发间：bow的韵音同low而不是cow。

bow包含三个项目：rainbow用于文本分类；arrow用于文本检索；crossbow用于文本聚类。这三个程序是独立的。

Rainbow

使用rainbow前首先要建立原始文档的一个model----包含了原始文档的一些统计信息，使用rainbow命令时通过-d选项来指定model的路径。

rainbow -d ~/model --index ~/20_newsgroups/*

以上命令是为 20_newsgroups所有分类创建model，生成~/model文件。

--index目录可以分别写：rainbow -d ~/model --index ~/20_newsgroups/talk.politics.guns ~/20_newsgroups/talk.politics.mideast ~/20_newsgroups/talk.politics.misc

--index可简写为-i

rainbow不支持一个文档拥有多个类标签。

各个文档属于哪个类都已经包含在了model中。

rainbow -d model --print-doc-names 打印出model中包含的所有文件的文件名（包括完整路径）。

默认情况下rainbow在建立model把字母都转换成了小写，并去除了停用词。

当然用rainbow建立model时还有很多选项可以指定，比如--skip-html可以路过“<"和“>"之间的所有字符；--skip-headers (or -h)选项跳过新闻组或邮件的headers before beginning tokenization.

为原始文档建立好索引后就可以来进行分类了。

rainbow -d ~/model --test-set=0.4 --test=3

表示输出3次试验的结果，60%的文档作为训练集，剩下40%作为测试集。

输出类似于：

/home/mccallum/20_newsgroups/talk.politics.misc/178939 talk.politics.misc talk.politics.misc:0.98 talk.politics.mideast:0.015 talk.politics.guns:0.005

指出了一个文档属于各个类的概率。

bow路径下还有一个perl脚本文件--rainbow-stats，它的输入是以上分类命令的输出，它的输出是平均精度、标准差和混淆矩阵。

rainbow -d ~/model --test-set=0.4 --test=2 | rainbow-stats

进行2次trail，输出形如：

Trial 1

Correct: 1077 out of 1200 (89.75 percent accuracy)

- Confusion details, row is actual, column is predicted

classname 0 1 2 :total

0 talk.politics.guns 378 2 20 :400 94.50%

1 talk.politics.mideast 7 374 19 :400 93.50%

2 talk.politics.misc 57 18 325 :400 81.25%

Percent_Accuracy average 90.38 stderr 0.44