摘要:本文旨在对情感分类任务的工作流程做一个简单的梳理,总结了大体框架,及一些需要注意的细节问题,作为总结。
目录
标题1.文本预处理
无论用哪种模型进行文本表征或分类,第一步肯定是对数据进行预处理,做特征工程。
对影评数据做预处理,大概有以下环节:
1.用pandas读入数据,理解数据(可视化分析/统计信息)
对数据的理解是任何AI工作的第一步,需要充分对手上的数据有个更直观的理解。
统计一下在qlist 总共出现了多少个单词? 总共出现了多少个不同的单词?
统计一下qlist中每个单词出现的频率,并把这些频率排一下序,然后画成plot.
2.去掉html标签
from bs4 import BeautifulSoup
# BeautifulSoup是一个专门处理网页爬下来的文本的库,可将里边的各种字符去掉。
example = BeautifulSoup(raw_example, 'html.parser').get_text()
3.移除标点
# 一般需要正则
example_letters = re.sub(r'[^a-zA-Z]', ' ', example)
4. 切分成词/token
words = example_letters.lower().split()
5. 去掉停用词
# 停用词可以用本地的也可用nltk等库里的,根据情况自己定
#words_nostop = [w for w in words if w not in stopwords.words('english')]
stopwords = {}.fromkeys([ line.rstrip() for line in open('../stopwords.txt')])
words_nostop = [w for w in words if w not in stopwords]
6. 重组为新