python之分词词性

代码:


import pynlpir
pynlpir.open() # 初始化分词库
content = '''
今年以来,面对各种困难和挑战,我国加大宏观调控力度,着力深化改革开放、扩大国内需求、优化经济结构,特别是随着存量政策加
快落实以及一揽子增量政策加力推出,政策组合效应不断释放,经济回升势头增强,市场预期信心提振,9月份多项经济指标边际改善,10
月份主要经济指标进一步好转,生产需求平稳增长,就业物价总体稳定,民生保障扎实有力,新质生产力加快培育,经济运行中的积极因素
持续增多,高质量发展扎实推进,全年有望延续回升向好态势。
'''
# 获取关键字
# content 内容,weighted 权重,False 不分析权重
key_words = pynlpir.get_key_words(content,weighted=False)
for keyword in key_words:
    print(keyword)
pynlpir.close() # 释放内存

pynlpir.open() # 初始化分词库
content = '''
今年以来,面对各种困难和挑战,我国加大宏观调控力度,着力深化改革开放、扩大国内需求、优化经济结构,
特别是随着存量政策加快落实以及一揽子增量政策加力推出,政策组合效应不断释放,经济回升势头增强,市场预期信心提振,
9月份多项经济指标边际改善,10月份主要经济指标进一步好转,生产需求平稳增长,
就业物价总体稳定,民生保障扎实有力,新质生产力加快培育,经济运行中的积极因素持续增多,高质量发展扎实推进,全年有望延续
回升向好态势。
供给能力持续提升。今年,我国农业生产形势较好,预计全年粮食产量将首次突破1.4万亿斤。'''
# 获取关键字
# pynlpir.segment(s,)
# pos_tagging=True 是否标注词性
# pos_names='parent' ,pos_tagging=True 生效,parent是默认值,获取改词的顶级的词性,child获取改词的具体信息,all改词所
# 相关词性信息
# pos_english=False 是否以中文形式显示
words = pynlpir.segment(content,pos_tagging=True)
for word in words:
    print(word)
print("**********输出词性***********")
words = pynlpir.segment(content,pos_tagging=True,pos_names='all',pos_english=False)
for word in words:
    print("词:",word[0],"词性",word[1])
pynlpir.close() # 释放内存

代码分析与解释

该代码使用了 pynlpir 库,这是一个用于中文自然语言处理的库,主要用于分词和关键词提取等功能。下面是对代码的逐行分析及解释:

1. 导入库
import pynlpir
导入 pynlpir 模块,以便使用其中的功能进行中文文本处理。

2. 初始化分词库
pynlpir.open()  # 初始化分词库
调用 open() 方法初始化分词库。这一步是必要的,确保后续的分词和关键词提取功能可以正常使用。

3. 定义文本内容
content = '''
今年以来,面对各种困难和挑战,我国加大宏观调控力度,着力深化改革开放、扩大国内需求、优化经济结构,特别是随着存量政策加快落实以及一揽子增量政策加力推出,政策组合效应不断释放,经济回升势头增强,市场预期信心提振,9月份多项经济指标边际改善,10月份主要经济指标进一步好转,生产需求平稳增长,就业物价总体稳定,民生保障扎实有力,新质生产力加快培育,经济运行中的积极因素持续增多,高质量发展扎实推进,全年有望延续回升向好态势。
'''
定义了一个多行字符串 content,包含了关于中国经济形势的描述。

4. 获取关键字
key_words = pynlpir.get_key_words(content, weighted=False)
for keyword in key_words:
    print(keyword)
使用 get_key_words 方法从 content 中提取关键词,参数 weighted=False 表示不分析权重。
将提取到的关键词逐个打印输出。

5. 释放内存
pynlpir.close()  # 释放内存
调用 close() 方法,释放 pynlpir 占用的内存。

6. 再次初始化分词库
pynlpir.open()  # 初始化分词库
再次初始化分词库,为后续的分词操作做准备。

7. 定义新的文本内容
content = '''
今年以来,面对各种困难和挑战,我国加大宏观调控力度,着力深化改革开放、扩大国内需求、优化经济结构,
特别是随着存量政策加快落实以及一揽子增量政策加力推出,政策组合效应不断释放,经济回升势头增强,市场预期信心提振,
9月份多项经济指标边际改善,10月份主要经济指标进一步好转,生产需求平稳增长,
就业物价总体稳定,民生保障扎实有力,新质生产力加快培育,经济运行中的积极因素持续增多,高质量发展扎实推进,全年有望延续
回升向好态势。
供给能力持续提升。今年,我国农业生产形势较好,预计全年粮食产量将首次突破1.4万亿斤。'''
定义了另一个多行字符串 content,描述了中国农业生产和粮食产量的预期。

8. 获取分词和词性标注
words = pynlpir.segment(content, pos_tagging=True)
for word in words:
    print(word)
使用 segment 方法对 content 进行分词,pos_tagging=True 表示同时进行词性标注。
将分词结果逐个打印输出。

9. 输出词性信息
print("**********输出词性***********")
words = pynlpir.segment(content, pos_tagging=True, pos_names='all', pos_english=False)
for word in words:
    print("词:", word[0], "词性", word[1])
再次调用 segment 方法,获取每个词的所有词性信息,pos_names='all' 表示获取所有相关词性,pos_english=False 表示以中文形式显示。
打印每个词及其对应的词性。

10. 释放内存
pynlpir.close()  # 释放内存
再次调用 close() 方法,释放 pynlpir 占用的内存。

扩展说明

  1. 关键词提取

-get_key_words` 方法可以帮助用户快速识别文本中的重要概念,这在信息检索、内容摘要等领域非常有用。

  1. 词性标注

词性标注是自然语言处理中的重要任务,可以帮助理解句子的结构和语义。通过获取每个词的词性信息,可以进行更深入的文本分析,如情感分析、主题建模等。

  1. 应用场景

该代码的应用场景包括但不限于:

新闻摘要生成

文本分类

情感分析

关键词广告投放

  1. 潜在的改进

可考虑增加对文本预处理的支持,如去除停用词、拼写纠错等。

提供更多的参数设置,以便用户定制分词及关键词提取的策略。

  1. 性能优化

对于大规模文本处理,可以考虑使用多线程或异步处理方法,以提高性能。

  1. 进一步学习

若对中文自然语言处理感兴趣,可以深入学习其他相关技术,如句法分析、语义理解和机器学习等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我不是少爷.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值