优秀的文本分类模型必须经得住真实数据集的验证,因而分类器必须在通用的数据集上进行测试。用于文本分类的数据集一般称为语料库。
语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。
数据集
机器学习是一个认识事物、获取知识的过程。其任务是把现有的对客观事物的认识与理解进行选择、提取、组织与分类。通过对大量的真实文本的学习来发现和探索自然语言的各种事实与规律。机器学习的所获取的知识对象一般称为数据集。自然语言处理领域的数据集一般称为语料库。语料库的建设已经经历了半个多世纪的发展历程。从最早的上世纪六十年代初的布朗语料库和七十年代初的LOB语料库,一直发展到美国计算机语言协会ACL/DCI语料库的建设。语料库语言学目前已经成为自然语言处理领域的热门科研课题。
文本分类的主流模型是基于统计学建立,统计机器学习模型的基础就是要有统计来源或素材,因此语料库在文本分类研究中的地位非常关键。分类器的实现需要建立在一个已经人工标注好的训练数据集上,训练集质量的优劣对文本分类的性能有着决定性的意义。语料库不仅能够为分类器提供机器学习的素材,而且可以评测分类器的分类性能,指导优化分类效果。
用于文本分类的语料库一般分为平衡语料库和非平衡语料库。语料库中每一个类的文本数相等或大致相等一般称为平衡语料库,而每个类别下文本数不相等的语料库称为非平衡语料库。两种语料库对文本分类的研究都有重要的意义。
英文语料
a) 20_Newsgroups 数据集:卡内基梅隆大学的Lang于1995年收集并整理的包含19997篇文档约平均分布在20个类别中的Usenet新闻组语料。Newsgroups已经成为文本分类及聚类中常用的数据集。麻省理工学院(MIT)的 Jason Rennie 对其作了必要的处理,形成 Newsgroups-18828。原始 Newsgroups 属于平衡语料库。
b) Reuters-21578 数据集:路透社人工汇集和分类形成,共包含路透社1987年的21578篇新闻稿,一般作为英文文件分类领域的基准语料库。该语料库为非平衡语料库。
c) OHSUMED 数据集:由 William Hersh 等人共同收集并整理,文档来源于医药信息数据库MEDLINE10,收集从1987 至1991 年270个医药类期刊的标题和(或)摘要,共含有348566篇文档。
中文语料
a) TanCorpV1.0 数据集:中国科学院计算技术研究所谭松波收集整理。该语料库分为两层,第一层12个类别,第二层60个类别,共包含文本14150篇。该语料库每个类包含文本数差异较大,为典型的非平衡语料库。
b) 搜狗实验室数据集:经过编辑手工整理与分类的新闻语料,新闻来源于搜狐新闻网站。搜狗实验室根据需求不同整理了多个版本。一般常用的是SogouC.reduced.20061127语料库,分为9个大类别,每类包含1990篇文档&#x