python文本挖掘

import jieba
#全模式
sentence='我喜欢武汉欢乐谷'
w1=jieba.cut(sentence,cut_all=True)#(句子,模式[True全模式,False精准模式])
for item in w1:
    print(item)
print()
#精准模式
w2=jieba.cut(sentence,cut_all=False)#去掉cut_all这个参数,默认为精准模式
for item in w2:
    print(item)
print()

#搜索引擎切分
w3=jieba.cut_for_search(sentence)#搜索引擎模式
for item in w3:
    print(item)


#词性标注
import jieba.posseg
w4=jieba.posseg.cut(sentence)
#.flag词性;.word词语
for item in w4:
    print(item.word+'---'+item.flag)
print()
'''
a:代表形容词;c:代表连词;d:副词;e:叹词;f:方位词;i:成语
m:数词;   n:名词;   nr:人名;   ns:地名; nt:机构团体
nz:其他专有名词;   p:介词   r:代词  t:时间  u:助词
v:动词  vn:动名词  w:标点符号  un:未知词语
'''
#词典加载自己添加的词典
jieba.load_userdict('C:/Python/Python37-32/Lib/site-packages/jieba/dict2.txt')
sentence2='武汉有限公司是一个很好的机构'
w5=jieba.posseg.cut(sentence2)
for item in w5:
    print(item.word+'---'+item.flag)


#更改词频
sentence3='我喜欢武汉欢乐谷'
w6=jieba.cut(sentence3,cut_all=True)
for item in w6:
    print(item)
print()
#jieba.add_word('欢乐谷')#只是添加到词典
jieba.suggest_freq('欢乐谷',True)
w7=jieba.cut(sentence3)
for item in w7:
    print(item)
import jieba.analyse
print()
#提取关键词
tag=jieba.analyse.extract_tags(sentence3,3)#提取关键字,3为个数
print(tag)
print()
#返回词语的位置
w8=jieba.tokenize(sentence3)
for item in w8:
    
    print(item)

print()
w9=jieba.tokenize(sentence3,mode='search')#搜索引擎位置
for item in w9:
    print(item)

#分析盗墓笔记词频
import jieba
import jieba.posseg
import jieba.analyse
data=open('E:/programCode/daomubiji.txt').read()
tag=jieba.analyse.extract_tags(data,30)
print(tag)

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值