python文本挖掘

最新推荐文章于 2023-11-30 19:46:20 发布

clover521

最新推荐文章于 2023-11-30 19:46:20 发布

阅读量391

点赞数

分类专栏： python 数据分析与挖掘文章标签： python jieba模块文本挖掘

本文链接：https://blog.csdn.net/xx20cw/article/details/84454430

版权

python 同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

数据分析与挖掘

12 篇文章 0 订阅

订阅专栏

import jieba
#全模式
sentence='我喜欢武汉欢乐谷'
w1=jieba.cut(sentence,cut_all=True)#(句子，模式[True全模式,False精准模式])
for item in w1:
    print(item)
print()
#精准模式
w2=jieba.cut(sentence,cut_all=False)#去掉cut_all这个参数，默认为精准模式
for item in w2:
    print(item)
print()

#搜索引擎切分
w3=jieba.cut_for_search(sentence)#搜索引擎模式
for item in w3:
    print(item)


#词性标注
import jieba.posseg
w4=jieba.posseg.cut(sentence)
#.flag词性；.word词语
for item in w4:
    print(item.word+'---'+item.flag)
print()
'''
a:代表形容词；c:代表连词；d:副词；e:叹词；f:方位词；i:成语
m:数词；   n:名词；   nr:人名；   ns:地名； nt:机构团体
nz:其他专有名词；   p：介词   r:代词  t:时间  u:助词
v:动词  vn:动名词  w:标点符号  un:未知词语
'''
#词典加载自己添加的词典
jieba.load_userdict('C:/Python/Python37-32/Lib/site-packages/jieba/dict2.txt')
sentence2='武汉有限公司是一个很好的机构'
w5=jieba.posseg.cut(sentence2)
for item in w5:
    print(item.word+'---'+item.flag)


#更改词频
sentence3='我喜欢武汉欢乐谷'
w6=jieba.cut(sentence3,cut_all=True)
for item in w6:
    print(item)
print()
#jieba.add_word('欢乐谷')#只是添加到词典
jieba.suggest_freq('欢乐谷',True)
w7=jieba.cut(sentence3)
for item in w7:
    print(item)
import jieba.analyse
print()
#提取关键词
tag=jieba.analyse.extract_tags(sentence3,3)#提取关键字，3为个数
print(tag)
print()
#返回词语的位置
w8=jieba.tokenize(sentence3)
for item in w8:
    
    print(item)

print()
w9=jieba.tokenize(sentence3,mode='search')#搜索引擎位置
for item in w9:
    print(item)

#分析盗墓笔记词频
import jieba
import jieba.posseg
import jieba.analyse
data=open('E:/programCode/daomubiji.txt').read()
tag=jieba.analyse.extract_tags(data,30)
print(tag)