基本概念:
文本挖掘(text mining)和自然语言处理(NLP)是现代人工智能系统不可分割的一部分。
定义:
文本挖掘是指从大量的文本的集合C中发现隐含的模式P。如果将文本集合C看作输入,将隐含的模式P看作输出,那么文本挖掘的过程就是从输入到输出的一个映射f:C—>p
文本挖掘过程包含的技术:
数据预处理、词性标记、信息检索、文本挖掘、文本分类、文本聚类、关联分析、语义解释、语言翻译等
分词是文本挖掘的基本性工作。分词预处理技术主要有:基于字符串(词库)匹配的分词算法、基于统计的分词技术(统计大量文本中出现频率较高的词)、基于理解的分词方法(机器跟人一样能句法语义分析)