英文数据简单预处理及简单情感分析

该代码示例展示了如何使用Python的nltk和spacy库进行文本预处理,包括去除标点符号、分句、词干提取和停用词过滤。之后,利用TextBlob进行情感分析,得出文本的情感极性和主观性程度。
  • 简单预处理 及 简单情感分析
#主要参考:https://blog.csdn.net/weixin_37834134/article/details/82710993
#Python数据操作—词干与词形化 https://blog.csdn.net/kan2281123066/article/details/81458641
# -*- coding: utf8 -*-
import nltk
import re
import os
import spacy
from nltk.stem import SnowballStemmer
filepath = r'D:\Desktop\Lancang-Mekong\update_2021_2022\country_year\China/2021/China_2021.txt'

#读文件
f=open(filepath,'r', encoding='utf-8')
raw=f.read()
print('raw\n',raw)

#分句子
#sent_tokenizer=nltk.data.load(r'C:\Users\Lenovo\AppData\Roaming/nltk_data/tokenizers\punkt/english.pickle')
#sents=sent_tokenizer.tokenize(raw)


#去除标点等无用的符号
p1=re.compile(r'-\{.*?(zh-hans|zh-cn):([^;]*?)(;.*?)?\}-')
p2=re.compile(r'[(][: @ . , ?!\s][)]')
p3=re.compile(r'[「『]')
p4=re.compile(r'[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”!,。?、~@#¥%……&*()0-9 , : ; \-\ \[\ \]\ ]')


line=p1.sub(r' ',raw)
line=p2.sub(r' ',line)
line=p3.sub(r' ',line)
line=p4.sub(r' ',line)
line=re.findall(r'([a-z
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值