文本数据挖掘
文章平均质量分 93
云日松
云日明松雪,溪山进晚风
展开
-
【机器学习】基于随机森林、线性分类支持向量机、多项式朴素贝叶斯、以及逻辑回归的中文文本的分类算法验证实现(附数据集及源代码仓库链接)
一、算法研究背景随着互联网的发展,越来越多的中文文本数据被创建和共享,例如社交媒体、电子邮件、新闻报道等。为了从这些数据中获取有用的信息,需要将它们进行分类和归纳。分类算法是机器学习领域中的一类算法,可以将数据自动分类为不同的类别。在中文文本分类任务中,这些类别可能是不同的主题、情感或语言风格等。中文文本分类可以应用于许多应用领域,如情感分析、垃圾邮件过滤、新闻推荐、搜索引擎优化等。因此,研究中文文本分类算法已成为机器学习和自然语言处理领域的热门研究方向之一。原创 2023-04-27 19:44:52 · 515 阅读 · 0 评论 -
文本数据挖掘----数据预处理
就是数据规模非常大,如果直接用作训练的话,可能计算机的内存吃不消,或者需要尽快的出训练结果,就可以使用抽样(简单随机抽样,不放回抽样或有放回抽样)的方法将数据的规模减小;通过某种方法将原始的数值数据变成离散数据;原创 2022-09-09 22:34:56 · 3203 阅读 · 0 评论 -
文本数据挖掘----初识数据挖掘
数据挖掘(英語:data mining)是一个跨学科的计算机科学分支 。 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。原创 2022-09-08 21:51:32 · 1559 阅读 · 0 评论