数据
数据来源:一个比赛
数据格式如下图所示:五个target,三个stance,文本是微博

1.导入必要的库
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import StratifiedKFold
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
import numpy as np
2.读取数据
直接read_csv会报错。其中训练数据2400条,测试数据600条,测试数据没有标签
train_data = pd.read_csv('data/train.csv',sep=None,engine='python',encoding='utf-8')
test_data = pd.read_csv('data/test.csv',sep=None,engine='python',encoding='utf-8')
3.数据预处理
1.标签映射为数字。这里建两个字典,一个是标签到数字的映射,一个是数据到标签的映射

本文介绍了进行微博立场检测的实战过程,从数据获取、数据处理、模型训练到准确率计算,最后为测试集打标签并准备提交结果。数据来源于比赛,包含训练集和测试集,其中训练集2400条,测试集600条,文本格式为微博内容,标签处理涉及映射和特征提取,训练中使用了StratifiedKFold进行交叉验证。
最低0.47元/天 解锁文章
682

被折叠的 条评论
为什么被折叠?



