Python 文本挖掘（一）

最新推荐文章于 2023-11-30 19:46:20 发布

VIP文章 xudailong_blog

最新推荐文章于 2023-11-30 19:46:20 发布

阅读量2.8k

点赞数 1

文章标签：文本挖掘数据挖掘语料库 python文本挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xudailong_blog/article/details/80072962

版权

更多文章请访问：
https://blog.csdn.net/xudailong_blog

（一）定义

是什么：
文本挖掘是从大量文本中，比如微博评论，知乎评论，JD，天猫淘宝大量评论中，文本中，抽取出有价值的知识，并利用这些知识创造出价值，实现变现的过程。
目的：

把文本信息转化为人类可利用的知识

（二）语料库

是什么：

语料库就是我们要分析的所有文档的集合，

生活中，在高中，特别是高三的时候，很多次大考小考模拟考，留下了很多很多试卷，然后试卷多了，弄得一团糟，这时候我们需要对考过的试卷进行分类，比如分类为语文，数学，英语，物理等等，也有根据考试的时间分类，一月考，二月考等。然后再放在不同的容易找到的位置。

在Python技术中，我们把需要分析的文本文件，读取到内存变量中，在内存变量中使用不同的数据结构，然后进行存储，以便下一步的分析。

这个内存变量就是语料库

（三）应用

记录一下语料库是为了理解如何在很多数据里面进行数据的相似度分析，从而去除一些相似度高的

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python 文本挖掘（一）

更多文章请访问： https://blog.csdn.net/xudailong_blog（一）定义是什么：文本挖掘是从大量文本中，比如微博评论，知乎评论，JD，天猫淘宝大量评论中，文本中，抽取出有价值的知识，并利用这些知识创造出价值，实现变现的过程。目的：把文本信息转化为人类可利用的知识（二）语料库是什么：语料库就是我们要分析的所有文档的集合，生活...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。