word2vec做情感分析

摘要:本文旨在对情感分类任务的工作流程做一个简单的梳理,总结了大体框架,及一些需要注意的细节问题,作为总结。

目录

标题1.文本预处理

标题2.词带模型做文本表征

标题3.word2vec做词表征

标题4.用处理好的表征训练模型进行分类


标题1.文本预处理

无论用哪种模型进行文本表征或分类,第一步肯定是对数据进行预处理,做特征工程。

对影评数据做预处理,大概有以下环节:

1.用pandas读入数据,理解数据(可视化分析/统计信息)

对数据的理解是任何AI工作的第一步,需要充分对手上的数据有个更直观的理解。

统计一下在qlist 总共出现了多少个单词? 总共出现了多少个不同的单词?

统计一下qlist中每个单词出现的频率,并把这些频率排一下序,然后画成plot. 

2.去掉html标签

from bs4 import BeautifulSoup
# BeautifulSoup是一个专门处理网页爬下来的文本的库,可将里边的各种字符去掉。
example = BeautifulSoup(raw_example, 'html.parser').get_text()

3.移除标点

# 一般需要正则
example_letters = re.sub(r'[^a-zA-Z]', ' ', example)

4. 切分成词/token

words = example_letters.lower().split()

5. 去掉停用词

# 停用词可以用本地的也可用nltk等库里的,根据情况自己定
#words_nostop = [w for w in words if w not in stopwords.words('english')]
stopwords = {}.fromkeys([ line.rstrip() for line in open('../stopwords.txt')])
words_nostop = [w for w in words if w not in stopwords]

6. 重组为新

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值