wakkStacy-CSDN博客

原创基于词袋模型或TFIDF的简单文本分类实战

简单文本分类实战项目所需的数据都已经爬取完毕，大部分爬到的文本都是和主题相关的，少部分文本和主题无关。受垃圾邮件分类的启发，我准备标注部分数据训练一个简单的分类器，来判断文本相关与否，以便对数据做一个简单的清洗。连接数据库，导入数据 import pymysql from sklearn import model_selection import numpy as np def prepare_datasets(): conn = pymysql.connect(host='localhost'

2020-08-20 15:00:32 1522 1

原创训练基于词袋模型的贝叶斯分类器遇到的一些问题

训练基于词袋模型的贝叶斯分类器遇到的一些问题在网上找了判断垃圾邮件的代码，套到自己的数据上，判断爬到的文本记录是否与主题相关。一、ValueError dimension mismatch ，在Stack Overflow上找到解决步骤： 1.vector.fit_transform()只用在训练集上，对测试集直接用vector.transform(). bow_train_features = vector.fit_transform(train_X) bow_test_features = vect

2020-08-18 15:04:42 409 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 基于词袋模型或TFIDF的简单文本分类实战

原创 训练基于词袋模型的贝叶斯分类器遇到的一些问题

空空如也

空空如也

原创基于词袋模型或TFIDF的简单文本分类实战

原创训练基于词袋模型的贝叶斯分类器遇到的一些问题