二、文本挖掘过程
有些人把文本挖掘视为另一常用术语文本知识发现(KDD)的同义词,而另一些人只是把文本挖掘视为文本知识发现过程的一个基本步骤。文本知识发现主要由以下步骤组成:
1)文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。
2)文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。
3)模式评估与表示为最后一个环节,是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。
如果把文本挖掘视为一个独立的过程,则上面三个步骤可以细化为下图表示:
三、文本挖掘关键技术及文本分类
文本转换为向量形式并经特征选择以后,便可以进行挖掘分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。文本分类是其中一种很关键的挖掘任务也是在文本信息处理领域用得最多的一种技术。下面做个简要介绍。
文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:
f : A->B A为待分类文本集,B为分类体系中的类别集合
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
一般来讲,文本分类需要四个步骤:
1)获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号;
2)选择分类方法并训练分类模型:文本分类方法有统计方法、机器学习方 法、神经网络方法等等。在对待分类样本进行分类前,要根据所选择的分类方法,利用训练集进行训练并得出分类模型;
3)用训练好的分类模型对其它待分类文本进行分类;
4)根据分类结果评估分类模型。
下图是一个完整的文本分类过程:
四、文本挖掘应用
主要的应用方向和系统有:
1)基于内容的搜索引擎,代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎;
2)信息自动分类、自动摘要、信息过滤等文本级应用,如上海交通大学纳讯公司的自动摘要、复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器
3)信息自动抽取,即将Internet上大量的非结构化的信息,抽取出格式化的数据,以备进一步的搜索应用。目前是研究热点,至今还没有实用的系统;
4)自动问答、机器翻译等需要更多自然语言处理和理解的应用。
以上均来自网络。