Python 文本挖掘(一)

更多文章请访问:
https://blog.csdn.net/xudailong_blog

(一)定义

  • 是什么:
    文本挖掘是从大量文本中,比如微博评论,知乎评论,JD,天猫淘宝大量评论中,文本中,抽取出有价值的知识,并利用这些知识创造出价值,实现变现的过程。

  • 目的:

    把文本信息转化为人类可利用的知识

(二)语料库

  • 是什么:

    语料库就是我们要分析的所有文档的集合,

生活中,在高中,特别是高三的时候,很多次大考小考模拟考,留下了很多很多试卷,然后试卷多了,弄得一团糟,这时候我们需要对考过的试卷进行分类,比如分类为语文,数学,英语,物理 等等,也有根据考试的时间分类,一月考,二月考等。然后再放在不同的容易找到的位置。

在Python技术中,我们把需要分析的文本文件,读取到内存变量中,在内存变量中使用不同的数据结构,然后进行存储,以便下一步的分析。

这个内存变量就是语料库

(三)应用

记录一下语料库是为了理解如何在很多数据里面进行数据的相似度分析,从而去除一些相似度高的

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值