更多文章请访问:
https://blog.csdn.net/xudailong_blog
(一)定义
是什么:
文本挖掘是从大量文本中,比如微博评论,知乎评论,JD,天猫淘宝大量评论中,文本中,抽取出有价值的知识,并利用这些知识创造出价值,实现变现的过程。目的:
把文本信息转化为人类可利用的知识
(二)语料库
是什么:
语料库就是我们要分析的所有文档的集合,
生活中,在高中,特别是高三的时候,很多次大考小考模拟考,留下了很多很多试卷,然后试卷多了,弄得一团糟,这时候我们需要对考过的试卷进行分类,比如分类为语文,数学,英语,物理 等等,也有根据考试的时间分类,一月考,二月考等。然后再放在不同的容易找到的位置。
在Python技术中,我们把需要分析的文本文件,读取到内存变量中,在内存变量中使用不同的数据结构,然后进行存储,以便下一步的分析。
这个内存变量就是语料库
(三)应用
记录一下语料库是为了理解如何在很多数据里面进行数据的相似度分析,从而去除一些相似度高的