跟学——某博主自然语言学习笔记

https://blog.csdn.net/maxMikexu

一、自然语言处理——中文文本预处理

https://blog.csdn.net/maxMikexu/article/details/104908665?spm=1001.2014.3001.5501

准备知识:Unicode和UTF-8的区别及作用:在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。所以UTF-8的出现是为了更好的存储和网络传输,如果传输的内容多为字母,那么这种方式将会节约不少流量。
Unicode包含所有字符集,对应一个二进制编码,用2个字节保存。
UTF-8把Unicode编码根据数字大小编码成1-6个字节,英文字母1个字节,汉字3个字节,生僻字4-6字节。支持ASCII编码。

1、数据导入:字符串str 编码encode 得到字节型bytes,字节型bytes 解码decode 得到字符串str
2、数据清洗:[\u4e00-\u9fa5]表示匹配汉字,[^\u4e00-\u9fa5]表示匹配除汉字以外的所有字符。其中\u表示匹配的Unicode字符。结果:包含所有的汉字,没有任何数字和符号。
3、中文分词:用jieba库,有全模式和精准模式。结果:把句子分成词语,包括正常词语和停用词。
4、停用词去除:[ w for w in list_txt if w not in stopwords] ,此处stopwords选自哈工大停用词表。结果:把分词后的数据,经过停用词处理后,剩下的为有意义的词语。
5、词频统计:collections库中的counter接口,它可以帮助统计词频率。结果:统计每个有意义的词语出现的次数。
6、特征选择—TF-IDF权重计算:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。可以度量为关联程度。
TF(Term Frequency)表示某个关键词在整篇文章中出现的频率。
IDF(InversDocument Frequency)表示计算倒文本频率。文本频率是指某个关键词在整个语料所有文章中出现的次数。倒文档频率又称为逆文档频率,它是文档频率的倒数,主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。
两者乘积越大,即为关键词。个人理解为出现频率要大,但是不能太大,不然就是无关紧要的词语。

代码修改部分:
报错问题解决办法

哈工大停用词表:::


.

.一
./


=″

[*]
}>
[⑤]]
[①D]
c]
ng昉

//


[②e]
[②g]
={
}
,也


[①⑥]
[②B]
[①a]
[④a]
[①③]
[③h]
③]
1.
--
[②b]
’‘
×××
[①⑧]
0:2
=[
[⑤b]
[②c]
[④b]
[②③]
[③a]
[④c]
[①⑤]
[①⑦]
[①g]
∈[
[①⑨]
[①④]
[①c]
[②f]
[②⑧]
[②①]
[①C]
[③c]
[③g]
[②⑤]
[②②]
一.
[①h]
.数
[]
[①B]
数/
[①i]
[③e]
[①①]
[④d]
[④e]
[③b]
[⑤a]
[①A]
[②⑧]
[②⑦]
[①d]
[②j]
〕〔
][
😕/
′∈
[②④
[⑤e]
12%
b]


…………………………………………………③
ZXFITL
[③F]

[①o]
]∧′=[
∪φ∈
′|
{-
②c

[③①]
R.L.
[①E]
Ψ
-[*]-

.
[②d]
[②
[②⑦]
[②②]
[③e]
[①i]
[①B]
[①h]
[①d]
[①g]
[①②]
[②a]
f]
[⑩]
a]
[①e]
[②h]
[②⑥]
[③d]
[②⑩]
e]


元/吨
[②⑩]
2.3%
5:0
[①]
::
[②]
[③]
[④]
[⑤]
[⑥]
[⑦]
[⑧]
[⑨]
……
——
?












,


?
·
———
──
?

<





[
]
(
)


×

/











В
"
;

@
γ
μ
φ
φ.
×
Δ


sub
exp
sup
sub
Lex





+ξ
++

-β

<±
<Δ
<λ
<φ
<<


=☆
=-

>λ
_
~±
~+
[⑤f]
[⑤d]
[②i]

[②G]
[①f]
LI

[-


[③⑩]
第二
一番
一直
一个
一些
许多

有的是
也就是说
末##末



哎呀
哎哟


俺们

按照

吧哒

罢了


本着

比方
比如
鄙人

彼此


别的
别说

并且
不比
不成
不单
不但
不独
不管
不光
不过
不仅
不拘
不论
不怕
不然
不如
不特
不惟
不问
不只

朝着

趁着



除此之外
除非
除了

此间
此外

从而



但是

当着



的话

等等


叮咚

对于

多少

而况
而且
而是
而外
而言
而已
尔后
反过来
反过来说
反之
非但
非徒
否则

嘎登




各个
各位
各种
各自

根据


故此
固然
关于


果然
果真


哈哈



何处
何况
何时


哼唷
呼哧


还是
还有
换句话说
换言之

或是
或者
极了

及其
及至

即便
即或
即令
即若
即使

几时


既然
既是
继而
加之
假如
假若
假使
鉴于


较之

接着
结果

紧接着
进而

尽管

经过

就是
就是说

具体地说
具体说来
开始
开外



可见
可是
可以
况且


来着

例如


连同
两者



另外
另一方面



慢说
漫说



每当

莫若

某个
某些


哪边
哪儿
哪个
哪里
哪年
哪怕
哪天
哪些
哪样

那边
那儿
那个
那会儿
那里
那么
那么些
那么样
那时
那些
那样

乃至



你们


宁可
宁肯
宁愿


啪达
旁人


凭借

其次
其二
其他
其它
其一
其余
其中

起见
起见
岂但
恰恰相反
前后
前者

然而
然后
然则

人家

任何
任凭

如此
如果
如何
如其
如若
如上所述

若非
若是

上下
尚且
设若
设使
甚而
甚么
甚至
省得
时候
什么
什么样
使得

是的
首先

谁知

顺着
似的

虽然
虽说
虽则

随着

所以

他们
他人

它们

她们

倘或
倘然
倘若
倘使


通过

同时

万一



为何
为了
为什么
为着

嗡嗡

我们

呜呼
乌乎
无论
无宁
毋宁


相对而言


向着



沿
沿着

要不
要不然
要不是
要么
要是

也罢
也好

一般
一旦
一方面
一来
一切
一样
一则

依照


以便
以及
以免
以至
以至于
以致
抑或

因此
因而
因为



由此可见
由于

有的
有关
有些


于是
于是乎

与此同时
与否
与其
越是
云云

再说
再者

在下

咱们


怎么
怎么办
怎么样
怎样


照着


这边
这儿
这个
这会儿
这就是说
这里
这么
这么点儿
这么些
这么样
这时
这些
这样
正如


之类
之所以
之一
只是
只限
只要
只有

至于
诸位

着呢

自从
自个儿
自各儿
自己
自家
自身
综上所述
总的来看
总的来说
总的说来
总而言之
总之

纵令
纵然
纵使
遵照
作为







喔唷


新闻(中文):::

腾讯体育3月6日讯、史蒂芬-库里时隔127天后复出,勇士113-121不敌猛龙。猛龙本场比赛过后,取得⒁左胜18负战绩,锁定季后赛,成为本赛拳联盟第z支领定季后赛的球队,第比赛开始后,库里持球组织进攻,明显改变了猛龙的防守,给克里斯和维金斯创选了轻松得分的机会。但在第一节还剩6分11秒下场时,库里没有得分,2次三分出手全部俪出。但在第二节比赛重新登场后,我们看到了那个熟悉的库里。他接球投三分命中,迎着防守人超远压哨三分命中,第三节还煌普洛瑞完成3+1。那个三分之王和2次常规赛wP风采救库里16投6中,三分12投3中,得到23分7篮板7助攻,达米安-李17投8中得到23分5篮板3助攻,安德鲁-帷金斯20投9中,三分9投3中得到21分9篮板2动攻,克里斯得到17分128
猛龙这边,鲍威尔20投13中,三分8投4中得到37分3篮板3拾断z助攻,凯尔-洛瑞14投6中,三分12投4中,得到26分10助攻5篮板,帕斯卡尔-西亚卡姆得到17分5篮板5助攻,伊库里今天复出,无疑是今天比赛的主角,诺曼-鲍威尔却完成抢戏。库里复出后,勇士料士就像打不死的小强,从第一节开始就北常顽强,紧紧的咬住比分,甚至伺机反扑。
面对这样的勇士,西亚卡姆前三节有些姿靡,没有展现出自己全明星的风采。鲍威尔在进攻端扛起球队,展现出强悍的身体素质和进攻能力,又是杀内线又是投三分,打得就像E如巢鲍威尔保持这种状态,等弗里德-范弗利特和小加霖尔等人复出后,猛龙仍然是东部有数的劲旅。到时候鲍威尔先发出场,范乔丹引领猛龙深厚的板凳席,这支球队仍然有望第一节还剩9分47秒,库里右侧三分线外持球,吸引了鲍威尔和阿奴诺比z名猛龙球员的防守,他做出投篮假动作后,运球向内线走,发现篮下空位的维金斯,灾然一个左手背后:第一节还剩2分58秒,帕斯卡尔拿到防守篮板,一条龙运球到前场,面对3名猛龙球员的防守,决定走中路单挑猛龙替补中锋布切尔。他运球到内线找到对抗,跳步撞开布切尔,第二节还剩11分24秒,猛龙球员面对托马斯·戴堆斯的防守,运球向左移动,试图挑战堆金斯的防守。但在鬣雌斯出手的一瞬间,维金斯高高跃起,迎面劈头盖脸盖掉殿堆斯。第二节还剩10分)e9秒,库里右侧持球,面对前队友麦考的防守,停球做出一个投篮假动作后,骗麦考起踯后,找到身体对抗出手,球打板入筐,还造成变考投篮犯规。
第二节还剩7分41秒,勇士球员安德森面对猛龙双人包夹,已经没有出手空间,希球传给左侧三分线外45度的库里。库里接球过后,面对阿奴诺比的补防,拔起就是一个三分。

源代码:::

import nltk
import jieba

###自行修改
jieba.setLogLevel(jieba.logging.INFO)

import re
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer #加权技术

创建去除非中文字符的函数

数据清洗,去除标点符号,数字,等其它非中文字符

匹配[^\u4e00-\u9fa5]

def find_chinese(file):
pattern = re.compile(r’[^\u4e00-\u9fa5]')
chinese_txt = re.sub(pattern, ‘’, file)
return chinese_txt

文件读取

def read_txt(filepath):
file = open(filepath, ‘r’, encoding=‘utf-8’)
txt = file.read()
return txt

中文分词

def cut_word(text):
# 精准模式
jieba_list = jieba.cut(text, cut_all=False)
return jieba_list

去除停用词

def seg_sentence(list_txt):
# 读取停用词表
stopwords = stopwords = read_txt(‘哈工大停用词表’)
seg_txt = [w for w in list_txt if w not in stopwords]
return seg_txt

词频统计

def counter(txt):
seg_list = txt
c = Counter()
for w in seg_list:
if w != ’ ':
c[w] += 1
return c

TF_IDF计算

def tf_idf(txt): #后文中使用为停用词处理之后的文本
corpus_txt = [’ ‘.join(txt)] #要处理的词语
stopword_list = read_txt(r’哈工大停用词表’).splitlines() #停用词组成
vector = TfidfVectorizer(stop_words=stopword_list)
tfidf = vector.fit_transform(corpus_txt)
print(tfidf)
# 获取词袋模型中的所有词!!!!!!!
wordlist = vector.get_feature_names_out()
# tf-idf矩阵 元素a[i][j]表示j词在i类文本中的tf-idf权重
weightlist = tfidf.toarray()
# 打印每类文本的tf-idf词语权重,第一个for遍历所有文本,第二个for便利某一类文本下的词语权重
for i in range(len(weightlist)):
print(“-------第”, i, “段文本的词语tf-idf权重------”)
for j in range(len(wordlist)):
print(wordlist[j], weightlist[i][j])

主函数

if name == “main”:
# 读取文本信息
news = read_txt(‘新闻(中文)’)
print(“原文:”, news)
# 清洗数据,去除无关标点
chinese_news = find_chinese(news)
print(“原文文本长度:”, news)
print(“纯中文文本:”, chinese_news)
# 结巴分词
chinese_cut = cut_word(chinese_news)
print(chinese_cut)
# 停用词去除
chinese_sentence = seg_sentence(chinese_cut)
print(chinese_sentence)
# 词频统计
lists = counter(chinese_sentence)
print(lists)
for list in lists.most_common(20):
print(list)
# TF-IDF权重计算
tf_idf(chinese_sentence)

运行结果:::

E:\pythonProject\venv\Scripts\python.exe E:/pythonProject/CSDN语料处理/test1.py
原文: 腾讯体育3月6日讯、史蒂芬-库里时隔127天后复出,勇士113-121不敌猛龙。猛龙本场比赛过后,取得⒁左胜18负战绩,锁定季后赛,成为本赛拳联盟第z支领定季后赛的球队,第比赛开始后,库里持球组织进攻,明显改变了猛龙的防守,给克里斯和维金斯创选了轻松得分的机会。但在第一节还剩6分11秒下场时,库里没有得分,2次三分出手全部俪出。但在第二节比赛重新登场后,我们看到了那个熟悉的库里。他接球投三分命中,迎着防守人超远压哨三分命中,第三节还煌普洛瑞完成3+1。那个三分之王和2次常规赛wP风采救库里16投6中,三分12投3中,得到23分7篮板7助攻,达米安-李17投8中得到23分5篮板3助攻,安德鲁-帷金斯20投9中,三分9投3中得到21分9篮板2动攻,克里斯得到17分128
猛龙这边,鲍威尔20投13中,三分8投4中得到37分3篮板3拾断z助攻,凯尔-洛瑞14投6中,三分12投4中,得到26分10助攻5篮板,帕斯卡尔-西亚卡姆得到17分5篮板5助攻,伊库里今天复出,无疑是今天比赛的主角,诺曼-鲍威尔却完成抢戏。库里复出后,勇士料士就像打不死的小强,从第一节开始就北常顽强,紧紧的咬住比分,甚至伺机反扑。
面对这样的勇士,西亚卡姆前三节有些姿靡,没有展现出自己全明星的风采。鲍威尔在进攻端扛起球队,展现出强悍的身体素质和进攻能力,又是杀内线又是投三分,打得就像E如巢鲍威尔保持这种状态,等弗里德-范弗利特和小加霖尔等人复出后,猛龙仍然是东部有数的劲旅。到时候鲍威尔先发出场,范乔丹引领猛龙深厚的板凳席,这支球队仍然有望第一节还剩9分47秒,库里右侧三分线外持球,吸引了鲍威尔和阿奴诺比z名猛龙球员的防守,他做出投篮假动作后,运球向内线走,发现篮下空位的维金斯,灾然一个左手背后:第一节还剩2分58秒,帕斯卡尔拿到防守篮板,一条龙运球到前场,面对3名猛龙球员的防守,决定走中路单挑猛龙替补中锋布切尔。他运球到内线找到对抗,跳步撞开布切尔,第二节还剩11分24秒,猛龙球员面对托马斯·戴堆斯的防守,运球向左移动,试图挑战堆金斯的防守。但在鬣雌斯出手的一瞬间,维金斯高高跃起,迎面劈头盖脸盖掉殿堆斯。第二节还剩10分)e9秒,库里右侧持球,面对前队友麦考的防守,停球做出一个投篮假动作后,骗麦考起踯后,找到身体对抗出手,球打板入筐,还造成变考投篮犯规。
第二节还剩7分41秒,勇士球员安德森面对猛龙双人包夹,已经没有出手空间,希球传给左侧三分线外45度的库里。库里接球过后,面对阿奴诺比的补防,拔起就是一个三分。

原文文本长度: 腾讯体育3月6日讯、史蒂芬-库里时隔127天后复出,勇士113-121不敌猛龙。猛龙本场比赛过后,取得⒁左胜18负战绩,锁定季后赛,成为本赛拳联盟第z支领定季后赛的球队,第比赛开始后,库里持球组织进攻,明显改变了猛龙的防守,给克里斯和维金斯创选了轻松得分的机会。但在第一节还剩6分11秒下场时,库里没有得分,2次三分出手全部俪出。但在第二节比赛重新登场后,我们看到了那个熟悉的库里。他接球投三分命中,迎着防守人超远压哨三分命中,第三节还煌普洛瑞完成3+1。那个三分之王和2次常规赛wP风采救库里16投6中,三分12投3中,得到23分7篮板7助攻,达米安-李17投8中得到23分5篮板3助攻,安德鲁-帷金斯20投9中,三分9投3中得到21分9篮板2动攻,克里斯得到17分128
猛龙这边,鲍威尔20投13中,三分8投4中得到37分3篮板3拾断z助攻,凯尔-洛瑞14投6中,三分12投4中,得到26分10助攻5篮板,帕斯卡尔-西亚卡姆得到17分5篮板5助攻,伊库里今天复出,无疑是今天比赛的主角,诺曼-鲍威尔却完成抢戏。库里复出后,勇士料士就像打不死的小强,从第一节开始就北常顽强,紧紧的咬住比分,甚至伺机反扑。
面对这样的勇士,西亚卡姆前三节有些姿靡,没有展现出自己全明星的风采。鲍威尔在进攻端扛起球队,展现出强悍的身体素质和进攻能力,又是杀内线又是投三分,打得就像E如巢鲍威尔保持这种状态,等弗里德-范弗利特和小加霖尔等人复出后,猛龙仍然是东部有数的劲旅。到时候鲍威尔先发出场,范乔丹引领猛龙深厚的板凳席,这支球队仍然有望第一节还剩9分47秒,库里右侧三分线外持球,吸引了鲍威尔和阿奴诺比z名猛龙球员的防守,他做出投篮假动作后,运球向内线走,发现篮下空位的维金斯,灾然一个左手背后:第一节还剩2分58秒,帕斯卡尔拿到防守篮板,一条龙运球到前场,面对3名猛龙球员的防守,决定走中路单挑猛龙替补中锋布切尔。他运球到内线找到对抗,跳步撞开布切尔,第二节还剩11分24秒,猛龙球员面对托马斯·戴堆斯的防守,运球向左移动,试图挑战堆金斯的防守。但在鬣雌斯出手的一瞬间,维金斯高高跃起,迎面劈头盖脸盖掉殿堆斯。第二节还剩10分)e9秒,库里右侧持球,面对前队友麦考的防守,停球做出一个投篮假动作后,骗麦考起踯后,找到身体对抗出手,球打板入筐,还造成变考投篮犯规。
第二节还剩7分41秒,勇士球员安德森面对猛龙双人包夹,已经没有出手空间,希球传给左侧三分线外45度的库里。库里接球过后,面对阿奴诺比的补防,拔起就是一个三分。

纯中文文本: 腾讯体育月日讯史蒂芬库里时隔天后复出勇士不敌猛龙猛龙本场比赛过后取得左胜负战绩锁定季后赛成为本赛拳联盟第支领定季后赛的球队第比赛开始后库里持球组织进攻明显改变了猛龙的防守给克里斯和维金斯创选了轻松得分的机会但在第一节还剩分秒下场时库里没有得分次三分出手全部俪出但在第二节比赛重新登场后我们看到了那个熟悉的库里他接球投三分命中迎着防守人超远压哨三分命中第三节还煌普洛瑞完成那个三分之王和次常规赛风采救库里投中三分投中得到分篮板助攻达米安李投中得到分篮板助攻安德鲁帷金斯投中三分投中得到分篮板动攻克里斯得到分猛龙这边鲍威尔投中三分投中得到分篮板拾断助攻凯尔洛瑞投中三分投中得到分助攻篮板帕斯卡尔西亚卡姆得到分篮板助攻伊库里今天复出无疑是今天比赛的主角诺曼鲍威尔却完成抢戏库里复出后勇士料士就像打不死的小强从第一节开始就北常顽强紧紧的咬住比分甚至伺机反扑面对这样的勇士西亚卡姆前三节有些姿靡没有展现出自己全明星的风采鲍威尔在进攻端扛起球队展现出强悍的身体素质和进攻能力又是杀内线又是投三分打得就像如巢鲍威尔保持这种状态等弗里德范弗利特和小加霖尔等人复出后猛龙仍然是东部有数的劲旅到时候鲍威尔先发出场范乔丹引领猛龙深厚的板凳席这支球队仍然有望第一节还剩分秒库里右侧三分线外持球吸引了鲍威尔和阿奴诺比名猛龙球员的防守他做出投篮假动作后运球向内线走发现篮下空位的维金斯灾然一个左手背后第一节还剩分秒帕斯卡尔拿到防守篮板一条龙运球到前场面对名猛龙球员的防守决定走中路单挑猛龙替补中锋布切尔他运球到内线找到对抗跳步撞开布切尔第二节还剩分秒猛龙球员面对托马斯戴堆斯的防守运球向左移动试图挑战堆金斯的防守但在鬣雌斯出手的一瞬间维金斯高高跃起迎面劈头盖脸盖掉殿堆斯第二节还剩分秒库里右侧持球面对前队友麦考的防守停球做出一个投篮假动作后骗麦考起踯后找到身体对抗出手球打板入筐还造成变考投篮犯规第二节还剩分秒勇士球员安德森面对猛龙双人包夹已经没有出手空间希球传给左侧三分线外度的库里库里接球过后面对阿奴诺比的补防拔起就是一个三分
<generator object Tokenizer.cut at 0x00000248E20A2F20>
[‘腾讯’, ‘体育’, ‘月’, ‘日’, ‘讯’, ‘史蒂芬’, ‘库里’, ‘时隔’, ‘天后’, ‘复出’, ‘勇士’, ‘敌’, ‘猛龙’, ‘猛龙’, ‘本场’, ‘比赛’, ‘过后’, ‘取得’, ‘左’, ‘胜负’, ‘战绩’, ‘锁定’, ‘季后赛’, ‘成为’, ‘本赛’, ‘拳’, ‘联盟’, ‘支领’, ‘定’, ‘季后赛’, ‘球队’, ‘比赛’, ‘库里’, ‘持球’, ‘组织’, ‘进攻’, ‘明显’, ‘改变’, ‘猛龙’, ‘防守’, ‘克里斯’, ‘和维金’, ‘斯’, ‘创选’, ‘轻松’, ‘得分’, ‘机会’, ‘第一节’, ‘剩’, ‘分秒’, ‘下场’, ‘库里’, ‘没有’, ‘得分’, ‘三分’, ‘出手’, ‘全部’, ‘俪’, ‘出’, ‘第二节’, ‘比赛’, ‘重新’, ‘登场’, ‘看到’, ‘熟悉’, ‘库里’, ‘接球’, ‘投’, ‘三分’, ‘命中’, ‘迎着’, ‘防守’, ‘超远’, ‘压哨’, ‘三分’, ‘命中’, ‘第三节’, ‘还煌’, ‘普洛瑞’, ‘完成’, ‘三分’, ‘王和次’, ‘常规赛’, ‘风采’, ‘救’, ‘库里’, ‘投中’, ‘三分’, ‘投中’, ‘得到’, ‘分’, ‘篮板’, ‘助攻’, ‘达米安李’, ‘投中’, ‘得到’, ‘分’, ‘篮板’, ‘助攻’, ‘安德鲁’, ‘帷金斯’, ‘投中’, ‘三分’, ‘投中’, ‘得到’, ‘分’, ‘篮板’, ‘动攻’, ‘克里斯’, ‘得到’, ‘分’, ‘猛龙’, ‘鲍威尔’, ‘投中’, ‘三分’, ‘投中’, ‘得到’, ‘分’, ‘篮板’, ‘拾断’, ‘助攻’, ‘凯尔’, ‘洛瑞’, ‘投中’, ‘三分’, ‘投中’, ‘得到’, ‘分’, ‘助攻’, ‘篮板’, ‘帕斯卡尔’, ‘西亚’, ‘卡姆’, ‘得到’, ‘分’, ‘篮板’, ‘助攻’, ‘伊’, ‘库里’, ‘今天’, ‘复出’, ‘无疑’, ‘今天’, ‘比赛’, ‘主角’, ‘诺曼’, ‘鲍威尔’, ‘却’, ‘完成’, ‘抢戏’, ‘库里’, ‘复出’, ‘勇士’, ‘料士’, ‘死’, ‘小强’, ‘第一节’, ‘北常’, ‘顽强’, ‘紧紧’, ‘咬住’, ‘比分’, ‘伺机’, ‘反扑’, ‘面对’, ‘勇士’, ‘西亚’, ‘卡姆’, ‘三节’, ‘姿靡’, ‘没有’, ‘展现出’, ‘全明星’, ‘风采’, ‘鲍威尔’, ‘进攻’, ‘端’, ‘扛起’, ‘球队’, ‘展现出’, ‘强悍’, ‘身体素质’, ‘进攻’, ‘能力’, ‘杀’, ‘内线’, ‘投’, ‘三分’, ‘打得’, ‘如巢’, ‘鲍威尔’, ‘保持’, ‘这种’, ‘状态’, ‘弗里德’, ‘范’, ‘弗利’, ‘特和小加霖’, ‘复出’, ‘猛龙’, ‘仍然’, ‘东部’, ‘有数’, ‘劲旅’, ‘到时候’, ‘鲍威尔’, ‘发出’, ‘场范’, ‘乔丹’, ‘引领’, ‘猛龙’, ‘深厚’, ‘板凳’, ‘席’, ‘这支’, ‘球队’, ‘仍然’, ‘有望’, ‘第一节’, ‘剩’, ‘分秒’, ‘库里’, ‘右侧’, ‘三分’, ‘线外’, ‘持球’, ‘吸引’, ‘鲍威尔’, ‘阿奴’, ‘诺比’, ‘名’, ‘猛龙’, ‘球员’, ‘防守’, ‘做出’, ‘投篮’, ‘假动作’, ‘运球’, ‘内线’, ‘走’, ‘发现’, ‘篮下’, ‘空位’, ‘维金斯’, ‘灾然’, ‘左手’, ‘背后’, ‘第一节’, ‘剩’, ‘分秒’, ‘帕斯卡尔’, ‘拿到’, ‘防守’, ‘篮板’, ‘一条龙’, ‘运球’, ‘前场’, ‘面对’, ‘名’, ‘猛龙’, ‘球员’, ‘防守’, ‘决定’, ‘走’, ‘中路’, ‘单挑’, ‘猛龙’, ‘替补’, ‘中锋’, ‘布’, ‘切尔’, ‘运球’, ‘内线’, ‘找到’, ‘对抗’, ‘跳步’, ‘撞开’, ‘布’, ‘切尔’, ‘第二节’, ‘剩’, ‘分秒’, ‘猛龙’, ‘球员’, ‘面对’, ‘托马斯’, ‘戴’, ‘堆斯’, ‘防守’, ‘运球’, ‘左’, ‘移动’, ‘试图’, ‘挑战’, ‘堆金斯’, ‘防守’, ‘鬣’, ‘雌斯’, ‘出手’, ‘一瞬间’, ‘维金斯’, ‘高高’, ‘跃起’, ‘迎面’, ‘劈头盖脸’, ‘盖掉’, ‘殿’, ‘堆斯’, ‘第二节’, ‘剩’, ‘分秒’, ‘库里’, ‘右侧’, ‘持球’, ‘面对’, ‘队友’, ‘麦考’, ‘防守’, ‘停球’, ‘做出’, ‘投篮’, ‘假动作’, ‘骗麦’, ‘考起’, ‘踯后’, ‘找到’, ‘身体’, ‘对抗’, ‘出手’, ‘球’, ‘打板’, ‘入筐’, ‘造成’, ‘变考’, ‘投篮’, ‘犯规’, ‘第二节’, ‘剩’, ‘分秒’, ‘勇士’, ‘球员’, ‘安德森’, ‘面对’, ‘猛龙’, ‘双人’, ‘包夹’, ‘已经’, ‘没有’, ‘出手’, ‘空间’, ‘希球’, ‘传给’, ‘左侧’, ‘三分’, ‘线’, ‘外度’, ‘库里’, ‘库里’, ‘接球’, ‘过后’, ‘面对’, ‘阿奴’, ‘诺比’, ‘补防’, ‘拔起’, ‘三分’]
Counter({‘三分’: 12, ‘库里’: 11, ‘猛龙’: 11, ‘投中’: 9, ‘防守’: 8, ‘得到’: 7, ‘分’: 7, ‘篮板’: 7, ‘剩’: 6, ‘分秒’: 6, ‘鲍威尔’: 6, ‘面对’: 6, ‘助攻’: 5, ‘复出’: 4, ‘勇士’: 4, ‘比赛’: 4, ‘第一节’: 4, ‘出手’: 4, ‘第二节’: 4, ‘球员’: 4, ‘运球’: 4, ‘球队’: 3, ‘持球’: 3, ‘进攻’: 3, ‘没有’: 3, ‘内线’: 3, ‘投篮’: 3, ‘过后’: 2, ‘左’: 2, ‘季后赛’: 2, ‘克里斯’: 2, ‘得分’: 2, ‘接球’: 2, ‘投’: 2, ‘命中’: 2, ‘完成’: 2, ‘风采’: 2, ‘帕斯卡尔’: 2, ‘西亚’: 2, ‘卡姆’: 2, ‘今天’: 2, ‘展现出’: 2, ‘仍然’: 2, ‘右侧’: 2, ‘阿奴’: 2, ‘诺比’: 2, ‘名’: 2, ‘做出’: 2, ‘假动作’: 2, ‘走’: 2, ‘维金斯’: 2, ‘布’: 2, ‘切尔’: 2, ‘找到’: 2, ‘对抗’: 2, ‘堆斯’: 2, ‘腾讯’: 1, ‘体育’: 1, ‘月’: 1, ‘日’: 1, ‘讯’: 1, ‘史蒂芬’: 1, ‘时隔’: 1, ‘天后’: 1, ‘敌’: 1, ‘本场’: 1, ‘取得’: 1, ‘胜负’: 1, ‘战绩’: 1, ‘锁定’: 1, ‘成为’: 1, ‘本赛’: 1, ‘拳’: 1, ‘联盟’: 1, ‘支领’: 1, ‘定’: 1, ‘组织’: 1, ‘明显’: 1, ‘改变’: 1, ‘和维金’: 1, ‘斯’: 1, ‘创选’: 1, ‘轻松’: 1, ‘机会’: 1, ‘下场’: 1, ‘全部’: 1, ‘俪’: 1, ‘出’: 1, ‘重新’: 1, ‘登场’: 1, ‘看到’: 1, ‘熟悉’: 1, ‘迎着’: 1, ‘超远’: 1, ‘压哨’: 1, ‘第三节’: 1, ‘还煌’: 1, ‘普洛瑞’: 1, ‘王和次’: 1, ‘常规赛’: 1, ‘救’: 1, ‘达米安李’: 1, ‘安德鲁’: 1, ‘帷金斯’: 1, ‘动攻’: 1, ‘拾断’: 1, ‘凯尔’: 1, ‘洛瑞’: 1, ‘伊’: 1, ‘无疑’: 1, ‘主角’: 1, ‘诺曼’: 1, ‘却’: 1, ‘抢戏’: 1, ‘料士’: 1, ‘死’: 1, ‘小强’: 1, ‘北常’: 1, ‘顽强’: 1, ‘紧紧’: 1, ‘咬住’: 1, ‘比分’: 1, ‘伺机’: 1, ‘反扑’: 1, ‘三节’: 1, ‘姿靡’: 1, ‘全明星’: 1, ‘端’: 1, ‘扛起’: 1, ‘强悍’: 1, ‘身体素质’: 1, ‘能力’: 1, ‘杀’: 1, ‘打得’: 1, ‘如巢’: 1, ‘保持’: 1, ‘这种’: 1, ‘状态’: 1, ‘弗里德’: 1, ‘范’: 1, ‘弗利’: 1, ‘特和小加霖’: 1, ‘东部’: 1, ‘有数’: 1, ‘劲旅’: 1, ‘到时候’: 1, ‘发出’: 1, ‘场范’: 1, ‘乔丹’: 1, ‘引领’: 1, ‘深厚’: 1, ‘板凳’: 1, ‘席’: 1, ‘这支’: 1, ‘有望’: 1, ‘线外’: 1, ‘吸引’: 1, ‘发现’: 1, ‘篮下’: 1, ‘空位’: 1, ‘灾然’: 1, ‘左手’: 1, ‘背后’: 1, ‘拿到’: 1, ‘一条龙’: 1, ‘前场’: 1, ‘决定’: 1, ‘中路’: 1, ‘单挑’: 1, ‘替补’: 1, ‘中锋’: 1, ‘跳步’: 1, ‘撞开’: 1, ‘托马斯’: 1, ‘戴’: 1, ‘移动’: 1, ‘试图’: 1, ‘挑战’: 1, ‘堆金斯’: 1, ‘鬣’: 1, ‘雌斯’: 1, ‘一瞬间’: 1, ‘高高’: 1, ‘跃起’: 1, ‘迎面’: 1, ‘劈头盖脸’: 1, ‘盖掉’: 1, ‘殿’: 1, ‘队友’: 1, ‘麦考’: 1, ‘停球’: 1, ‘骗麦’: 1, ‘考起’: 1, ‘踯后’: 1, ‘身体’: 1, ‘球’: 1, ‘打板’: 1, ‘入筐’: 1, ‘造成’: 1, ‘变考’: 1, ‘犯规’: 1, ‘安德森’: 1, ‘双人’: 1, ‘包夹’: 1, ‘已经’: 1, ‘空间’: 1, ‘希球’: 1, ‘传给’: 1, ‘左侧’: 1, ‘线’: 1, ‘外度’: 1, ‘补防’: 1, ‘拔起’: 1})
(‘三分’, 12)
(‘库里’, 11)
(‘猛龙’, 11)
(‘投中’, 9)
(‘防守’, 8)
(‘得到’, 7)
(‘分’, 7)
(‘篮板’, 7)
(‘剩’, 6)
(‘分秒’, 6)
(‘鲍威尔’, 6)
(‘面对’, 6)
(‘助攻’, 5)
(‘复出’, 4)
(‘勇士’, 4)
(‘比赛’, 4)
(‘第一节’, 4)
(‘出手’, 4)
(‘第二节’, 4)
(‘球员’, 4)
E:\pythonProject\venv\lib\site-packages\sklearn\feature_extraction\text.py:409: UserWarning: Your stop_words may be inconsistent with your preprocessing. Tokenizing the stop words generated tokens [‘lex’, ‘①①’, ‘①②’, ‘①③’, ‘①④’, ‘①⑤’, ‘①⑥’, ‘①⑦’, ‘①⑧’, ‘①⑨’, ‘①a’, ‘①b’, ‘①c’, ‘①d’, ‘①e’, ‘①f’, ‘①g’, ‘①h’, ‘①i’, ‘①o’, ‘②①’, ‘②②’, ‘②③’, ‘②④’, ‘②⑤’, ‘②⑥’, ‘②⑦’, ‘②⑧’, ‘②⑩’, ‘②a’, ‘②b’, ‘②d’, ‘②e’, ‘②f’, ‘②g’, ‘②h’, ‘②i’, ‘②j’, ‘③①’, ‘③⑩’, ‘③a’, ‘③b’, ‘③c’, ‘③d’, ‘③e’, ‘③f’, ‘③g’, ‘③h’, ‘④a’, ‘④b’, ‘④c’, ‘④d’, ‘④e’, ‘⑤a’, ‘⑤b’, ‘⑤d’, ‘⑤e’, ‘⑤f’, ‘12’, ‘li’, ‘zxfitl’] not in stop_words.
warnings.warn(
(0, 93) 0.02917299829957891
(0, 149) 0.02917299829957891
(0, 58) 0.02917299829957891
(0, 69) 0.02917299829957891
(0, 12) 0.02917299829957891
(0, 72) 0.02917299829957891
(0, 133) 0.02917299829957891
(0, 71) 0.02917299829957891
(0, 37) 0.02917299829957891
(0, 42) 0.02917299829957891
(0, 63) 0.02917299829957891
(0, 122) 0.02917299829957891
(0, 47) 0.02917299829957891
(0, 170) 0.02917299829957891
(0, 20) 0.02917299829957891
(0, 86) 0.02917299829957891
(0, 158) 0.02917299829957891
(0, 157) 0.02917299829957891
(0, 143) 0.02917299829957891
(0, 180) 0.02917299829957891
(0, 18) 0.02917299829957891
(0, 183) 0.02917299829957891
(0, 173) 0.02917299829957891
(0, 129) 0.02917299829957891
(0, 32) 0.02917299829957891
: :
(0, 169) 0.08751899489873673
(0, 141) 0.02917299829957891
(0, 96) 0.08751899489873673
(0, 127) 0.08751899489873673
(0, 100) 0.02917299829957891
(0, 144) 0.02917299829957891
(0, 111) 0.02917299829957891
(0, 83) 0.02917299829957891
(0, 62) 0.05834599659915782
(0, 172) 0.02917299829957891
(0, 84) 0.02917299829957891
(0, 146) 0.02917299829957891
(0, 46) 0.02917299829957891
(0, 162) 0.05834599659915782
(0, 115) 0.11669199319831564
(0, 110) 0.02917299829957891
(0, 124) 0.32090298129536804
(0, 36) 0.11669199319831564
(0, 57) 0.11669199319831564
(0, 59) 0.02917299829957891
(0, 104) 0.02917299829957891
(0, 76) 0.32090298129536804
(0, 48) 0.02917299829957891
(0, 14) 0.02917299829957891
(0, 148) 0.02917299829957891
-------第 0 段文本的词语tf-idf权重------
一条龙 0.02917299829957891
一瞬间 0.02917299829957891
三分 0.3500759795949469
三节 0.02917299829957891
下场 0.02917299829957891
东部 0.02917299829957891
中路 0.02917299829957891
中锋 0.02917299829957891
主角 0.02917299829957891
乔丹 0.02917299829957891
今天 0.05834599659915782
仍然 0.05834599659915782
传给 0.02917299829957891
伺机 0.02917299829957891
体育 0.02917299829957891
保持 0.02917299829957891
假动作 0.05834599659915782
做出 0.05834599659915782
停球 0.02917299829957891
克里斯 0.05834599659915782
入筐 0.02917299829957891
全明星 0.02917299829957891
全部 0.02917299829957891
内线 0.08751899489873673
决定 0.02917299829957891
凯尔 0.02917299829957891
出手 0.11669199319831564
分秒 0.17503798979747345
切尔 0.05834599659915782
创选 0.02917299829957891
到时候 0.02917299829957891
前场 0.02917299829957891
劈头盖脸 0.02917299829957891
动攻 0.02917299829957891
助攻 0.14586499149789456
劲旅 0.02917299829957891
勇士 0.11669199319831564
包夹 0.02917299829957891
北常 0.02917299829957891
单挑 0.02917299829957891
卡姆 0.05834599659915782
压哨 0.02917299829957891
双人 0.02917299829957891
反扑 0.02917299829957891
发出 0.02917299829957891
发现 0.02917299829957891
取得 0.02917299829957891
变考 0.02917299829957891
史蒂芬 0.02917299829957891
右侧 0.05834599659915782
吸引 0.02917299829957891
命中 0.05834599659915782
和维金 0.02917299829957891
咬住 0.02917299829957891
场范 0.02917299829957891
堆斯 0.05834599659915782
堆金斯 0.02917299829957891
复出 0.11669199319831564
外度 0.02917299829957891
天后 0.02917299829957891
如巢 0.02917299829957891
姿靡 0.02917299829957891
季后赛 0.05834599659915782
安德森 0.02917299829957891
安德鲁 0.02917299829957891
完成 0.05834599659915782
对抗 0.05834599659915782
小强 0.02917299829957891
展现出 0.05834599659915782
左侧 0.02917299829957891
左手 0.02917299829957891
已经 0.02917299829957891
希球 0.02917299829957891
帕斯卡尔 0.05834599659915782
帷金斯 0.02917299829957891
常规赛 0.02917299829957891
库里 0.32090298129536804
引领 0.02917299829957891
弗利 0.02917299829957891
弗里德 0.02917299829957891
强悍 0.02917299829957891
得分 0.05834599659915782
得到 0.20421098809705238
成为 0.02917299829957891
战绩 0.02917299829957891
打得 0.02917299829957891
打板 0.02917299829957891
托马斯 0.02917299829957891
扛起 0.02917299829957891
找到 0.05834599659915782
投中 0.2625569846962102
投篮 0.08751899489873673
抢戏 0.02917299829957891
拔起 0.02917299829957891
拾断 0.02917299829957891
拿到 0.02917299829957891
持球 0.08751899489873673
挑战 0.02917299829957891
接球 0.05834599659915782
撞开 0.02917299829957891
支领 0.02917299829957891
改变 0.02917299829957891
料士 0.02917299829957891
无疑 0.02917299829957891
时隔 0.02917299829957891
明显 0.02917299829957891
普洛瑞 0.02917299829957891
替补 0.02917299829957891
有数 0.02917299829957891
有望 0.02917299829957891
本场 0.02917299829957891
本赛 0.02917299829957891
机会 0.02917299829957891
板凳 0.02917299829957891
比分 0.02917299829957891
比赛 0.11669199319831564
没有 0.08751899489873673
洛瑞 0.02917299829957891
深厚 0.02917299829957891
灾然 0.02917299829957891
熟悉 0.02917299829957891
特和小加霖 0.02917299829957891
犯规 0.02917299829957891
状态 0.02917299829957891
猛龙 0.32090298129536804
王和次 0.02917299829957891
球员 0.11669199319831564
球队 0.08751899489873673
登场 0.02917299829957891
盖掉 0.02917299829957891
看到 0.02917299829957891
移动 0.02917299829957891
空位 0.02917299829957891
空间 0.02917299829957891
第一节 0.11669199319831564
第三节 0.02917299829957891
第二节 0.11669199319831564
篮下 0.02917299829957891
篮板 0.20421098809705238
紧紧 0.02917299829957891
线外 0.02917299829957891
组织 0.02917299829957891
维金斯 0.05834599659915782
考起 0.02917299829957891
联盟 0.02917299829957891
背后 0.02917299829957891
胜负 0.02917299829957891
能力 0.02917299829957891
腾讯 0.02917299829957891
补防 0.02917299829957891
西亚 0.05834599659915782
试图 0.02917299829957891
诺曼 0.02917299829957891
诺比 0.05834599659915782
超远 0.02917299829957891
跃起 0.02917299829957891
跳步 0.02917299829957891
踯后 0.02917299829957891
身体 0.02917299829957891
身体素质 0.02917299829957891
轻松 0.02917299829957891
达米安李 0.02917299829957891
过后 0.05834599659915782
迎着 0.02917299829957891
迎面 0.02917299829957891
运球 0.11669199319831564
还煌 0.02917299829957891
这支 0.02917299829957891
这种 0.02917299829957891
进攻 0.08751899489873673
造成 0.02917299829957891
重新 0.02917299829957891
锁定 0.02917299829957891
队友 0.02917299829957891
防守 0.23338398639663127
阿奴 0.05834599659915782
雌斯 0.02917299829957891
面对 0.17503798979747345
顽强 0.02917299829957891
风采 0.05834599659915782
骗麦 0.02917299829957891
高高 0.02917299829957891
鲍威尔 0.17503798979747345
麦考 0.02917299829957891

进程已结束,退出代码0

二、情感分析案例

方法一:
基于BosonNLP情感词典。波森情感词典是由波森自然语言处理公司推出的一款已经做好标注的情感词典。词典中对每个情感词进行情感值评分。大于0为积极,否则为消极。其中数据集包含更多的流行语句。此情感词典来源于社交媒体文本,适用于处理社交媒体的情感分析,对于其他种类样本进行分析效果不太好。

基于BosonNLP情感词典的情感分析较为简单。首先,需要对文本进行分句、分词,本文选择的分词工具为哈工大的pyltp。其次,将分词好的列表数据对应BosonNLp词典进行逐个匹配,并记录匹配到的情感词分值。最后,统计计算分值总和,如果分值大于0,表示情感倾向为积极的;如果小于0,则表示情感倾向为消极的。原理框图如下:
pyltp 是哈工大自然语言工作组推出的一款基于Python 封装的自然语言处理工具(轮子),提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。**

https://blog.csdn.net/newlw/article/details/125033331。关于情感词性分析的有效链接。

**

**方法二:**知网推出的情感词典,以及极性表进行情感分析。主要表达为程度层次。
核心:
对每一句话进行情感分析,分析的方法主要为:判断这段话中的情感词数目,含有积极词,则积极词数目加1,含有消极词,则消极词数目加1。并且再统计的过程中还需要判断该情感词前面是否存在程度副词,如果存在,则需要根据程度副词的种类赋予不同的权重,乘以情感词数。如果句尾存在?!等符号,则情感词数目增加一定值,因为!与?这类的标点往往表示情感情绪的加强,因此需要进行一定处理。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值