word2vec做情感分析

最新推荐文章于 2024-07-25 22:13:10 发布

weixin_45599022

最新推荐文章于 2024-07-25 22:13:10 发布

阅读量2.4k

点赞数 2

文章标签：自然语言处理 python 机器学习

本文链接：https://blog.csdn.net/weixin_45599022/article/details/109008368

版权

摘要：本文旨在对情感分类任务的工作流程做一个简单的梳理，总结了大体框架，及一些需要注意的细节问题，作为总结。

标题1.文本预处理

无论用哪种模型进行文本表征或分类，第一步肯定是对数据进行预处理，做特征工程。

对影评数据做预处理，大概有以下环节：

1.用pandas读入数据，理解数据（可视化分析/统计信息）

对数据的理解是任何AI工作的第一步，需要充分对手上的数据有个更直观的理解。

统计一下在qlist 总共出现了多少个单词？ 总共出现了多少个不同的单词？

统计一下qlist中每个单词出现的频率，并把这些频率排一下序，然后画成plot.

2.去掉html标签

from bs4 import BeautifulSoup
# BeautifulSoup是一个专门处理网页爬下来的文本的库，可将里边的各种字符去掉。
example = BeautifulSoup(raw_example, 'html.parser').get_text()

3.移除标点

# 一般需要正则
example_letters = re.sub(r'[^a-zA-Z]', ' ', example)

4. 切分成词/token

words = example_letters.lower().split()

5. 去掉停用词

# 停用词可以用本地的也可用nltk等库里的，根据情况自己定
#words_nostop = [w for w in words if w not in stopwords.words('english')]
stopwords = {}.fromkeys([ line.rstrip() for line in open('../stopwords.txt')])
words_nostop = [w for w in words if w not in stopwords]

6. 重组为新

最低0.47元/天解锁文章

weixin_45599022

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
word2vec做情感分析

摘要：本文旨在对情感分类任务的工作流程做一个简单的梳理，总结了大体框架，及一些需要注意的细节问题，作为总结。目录标题1.文本预处理标题2.词带模型做文本表征标题3.word2vec做词表征标题4.用处理好的表征训练模型进行分类标题1.文本预处理无论用哪种模型进行文本表征或分类，第一步肯定是对数据进行预处理，做特征工程。对影评数据做预处理，大概有以下环节：1.用pandas读入数据，理解数据（可视化分析/统计信息）对数据的理解是任何AI工作的第一步，需要充分对手上的数
复制链接

扫一扫