scikit-learn 文本挖掘概念

最新推荐文章于 2017-05-22 11:04:07 发布

喂鱼W_y

最新推荐文章于 2017-05-22 11:04:07 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：数据挖掘

机器学习专栏收录该内容

23 篇文章 2 订阅

订阅专栏

文本挖掘 text mining

知识密集的处理过程，使用分析工具与文档集合动态交互。
类似于数据挖掘的方式，文本挖掘旨在通过识别令人感兴趣的模式来提取和搜索数据源中有用信息。数据来源是文档集合，不是形式化的数据库记录，是非结构化的文本数据集合。
将文字转化为数字，算法可以应用到大型文档数据库。将文本转化为结构化，数字格式，并应用分析算法需要知道如何使用和整合这些技术来处理文本，范围包括文本个体到整个文件的数据库。
七个主要领域：
1、搜索和信息检索（IR）2、文档聚类3、文件分类4、web挖掘5、信息抽取（IE）6、自然语言处理（NLP）7、概念提取

Question1:粒度（重点详细程度）：词汇、句子、片段、段落、篇章。。。Q2:焦点：搜索与信息提取Q3：可用信息Q4:语法或语义Q5:网络或传统文本

广义向量空间模型
文本最流行的结构化表示就是向量空间模型，它把文本表示成一个向量，其中向量的每个元素表示为文本中出现的单词，这将导致极高维的空间。通常，文本文档的集合中出现的每一个不同的字符串都是一个维度，包括常用英语词和其他类型的字符串。向量空间模型可以看成是一个传统的特征向量，其中的词和字符串代替传统的数字功能。许多文本挖掘方案把文本存储成向量空间的表示，可以使用数据挖掘或机器学习算法。
向量空间模型提出一个隐含的假设，bag－of－words假设，表示词语在文档中次序并不重要。出现在文件中任意顺序的词的集合通常对区分语义概念是足够的。文本挖掘的优势在于它使用了文档中所有的词主要关键词以及一般词汇。通常情况下关键词并不能区分一个文件，反而二级词的使用模式提供了区别的特性。
但是对于某些任务如信息提取和自然语言处理，词的顺序是成功解决问题的关键。实体抽取和自然语言处理的突出特点是药考虑前后的字来决定中心词的特性如词性判断。使用专门的算法和模型来处理序列问题，如有限随机状态或条件随机场使用在这些情况下。
使用向量空间模型的一个挑战在于多义词的存在。这些是拼写相同，但具有不同含义的词语。

文本预处理
如何将非结构化和半结构化文本转化成向量空间模型？步骤如下：
1、选择文本的范围，以进行处理（文档，段落）。
选择适当的范围取决于文本挖掘人物的目标：对于分类或聚类的任务，往往适当范围可以是整个文档；对于情感分析，文档自动文摘，或信息检索，更小的文本单位，如段落或章节更合适。
2、tokenize：使用标记令牌，切分文本为独立词语。
将文本单元分解成单个的词语或标记。分词处理！！！
3、删除停用词：删除常用词
stopping 节省存储空间和加快加工。取出某些特定的文本依赖于它出现的情况。
4、词干：删除前缀后缀正常化词语－比如，run
running、runs表示一个词run。
词干提取时把相关词归结成单一形式的过程。
5、拼写规范化：统一贫血错误和其他拼写变化成单一的标记。
6、检测句子边界：标记句子的结束。
7、标准化大小写：转化文本为统一的大小写。

TF-IDF算法

经过文本预处理，各个词标记必须转换成适合于输入到文本挖掘算法的向量表示。该向量的表示可以采取三种形式：二元表示；整型表示；浮点值的权重向量。例子如下：
假设文本为下面三个文件的集合：文件1:My dog ate my homework。文件2:My cat ate the sandwich。文件3:A dolphin ate the homework。

这些文档向量空间包含15个标记，其中9个是不同。这些术语在括号总计数按字母顺序排序：a（1），ate（3），cat（1），dolphin（1），dog（1），homework（2），my（3），sandwich（1），the（2）；
二元和整型计数载体直接从标记（token）流来计算。文档中出现的词汇二元向量储存为1，而整型向量存储在文档中单词出现次数。
文件1:0，1，0，0，1，1，1，0，0（my出现两次在句子中，二元向量下仍然是1）
文件2:0，1，1，0，0，0，1，1，1
文件3:1，1，0，1，0，1，0，0，1

三个文件将如下所示整型计算向量：
文件1:0，1，0，0，1，1，2，0，0（my出现2次）
文件2:0，1，1，0，0，0，1，1，1
文件3:1，1，0，1，0，1，0，0，1

储存文本的权重向量，首先需要选择一个权重方案。最流行的方案是tf-idf权重的方法。tf－idf代表词频－－逆
文档频率。词条的频率是词条出现在文档中的次数，如文件1中my的频率是2。词条的文档频率是包含给定条件的文档数量，对于my，前三个文档集合文档那个数量也是2。
tf-idf的假设是，高频率词应该具有高权重，除非他也是高文档频率。my是最常用词汇之一，它发生在单个文件中很多次，但也几乎发生在每个文档中，这两者竞争相互抵消，得到一个低的权重。