哈工大社会计算与信息检索研究中心 中文文本分类介绍
概况介绍
中文文本自动分类是自然语言处理的经典研究方向,有着极其重要的应用价值。文本分类的核心技术为构建一个具有高准确度和较高速度的分类器,高效率的分类器才能具有实用性。目前构建分类器的方法有贝叶斯分类算法、K紧邻(K-NN)、决策树、线性最小二乘法估计(LLSF)、支持向量机(SVM)等,其中K-NN和SVM是基于向量空间模型(VSM)的最好的分类器,我们采用的SVM更是具有其他算法所不具备的优点,通过实验也证明了SVM能获得更好的分类性能。分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题。自动分类在信息检索、图书馆管理和网页新闻体系划分都有重要应用。体系结构
文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。
我们可以把分类过程分成2个部分:训练过程和分类过程:
在2004年举行的863分类评测中,我们系统在最短时间内最快完成测试,表现出极高的效率和稳定性,在10多家参加单位中处于中游水平。历经2年不断改进,在14类新闻分类体系中准确率达到80%,基本达到实用水平。
系统功能
1)较快的训练和测试过程。2)根据不同用户需求,可以便捷地更改分类体系。
3)在Windows和Linux下都可以运行。
4)支持单一文本即时分类和成批量文本同时分类。
技术特点
我们使用的方法基于类别特征域的文本分类特征选择方法。该方法首先利用“组合特征抽取”的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。性能指标
在2004年举行的863分类评测中,我们系统在最短时间内最快完成测试,表现出很高的效率和稳定性,准确率和招回率在10多家参加评测单位中名次位于中游。历经2年不断改进,在11个类别的新闻分类体系中准确率达到80%以上,基本达到实用水平。目前我们的系统对常用的11个类别进行测试的具体指标:
类别 | 准确率 | 招回率 | F值 |
财经 | 0.725526 | 0.792208 | 0.757402 |
房产 | 0.911090 | 0.871912 | 0.891071 |
汽车 | 0.900372 | 0.925359 | 0.912695 |
旅游 | 0.677174 | 0.692222 | 0.684615 |
体育 | 0.960980 | 0.955776 | 0.958371 |
教育 | 0.858624 | 0.844300 | 0.851402 |
生活 | 0.670659 | 0.640000 | 0.654971 |
科技 | 0.821463 | 0.823026 | 0.822243 |
游戏 | 0.930732 | 0.936212 | 0.933464 |
娱乐 | 0.913690 | 0.921922 | 0.917788 |
军事 | 0.927310 | 0.891218 | 0.908906 |
微平均值 | 0.845238 | 0.844923 | 0.844811 |
应用领域
1、信息检索2、新闻即时分类
3、词义消歧
4、图书馆管理系统
哈工大信息检索研究室推广技术 技术列表
中文分词与词性标注中文命名实体识别
中文词义消歧
中文依存句法分析
中文自动校对
中文文本分类
单文档自动文摘
中文多文档自动文摘
主页替换自动发现
大规模文本/网页去重系统
中英文例句检索系统
中文信息模糊匹配
简繁/繁简转换
汉语文本自动标注拼音
基于FAQ自动客服系统
中文全文检索系统
英文拼写检查
机构信息抽取系统