python之分词词性-CSDN博客

本文链接：https://blog.csdn.net/xiaoyu070321/article/details/144380471

代码：


import pynlpir
pynlpir.open() # 初始化分词库
content = '''
今年以来，面对各种困难和挑战，我国加大宏观调控力度，着力深化改革开放、扩大国内需求、优化经济结构，特别是随着存量政策加
快落实以及一揽子增量政策加力推出，政策组合效应不断释放，经济回升势头增强，市场预期信心提振，9月份多项经济指标边际改善，10
月份主要经济指标进一步好转，生产需求平稳增长，就业物价总体稳定，民生保障扎实有力，新质生产力加快培育，经济运行中的积极因素
持续增多，高质量发展扎实推进，全年有望延续回升向好态势。
'''
# 获取关键字
# content 内容，weighted 权重，False 不分析权重
key_words = pynlpir.get_key_words(content,weighted=False)
for keyword in key_words:
    print(keyword)
pynlpir.close() # 释放内存

pynlpir.open() # 初始化分词库
content = '''
今年以来，面对各种困难和挑战，我国加大宏观调控力度，着力深化改革开放、扩大国内需求、优化经济结构，
特别是随着存量政策加快落实以及一揽子增量政策加力推出，政策组合效应不断释放，经济回升势头增强，市场预期信心提振，
9月份多项经济指标边际改善，10月份主要经济指标进一步好转，生产需求平稳增长，
就业物价总体稳定，民生保障扎实有力，新质生产力加快培育，经济运行中的积极因素持续增多，高质量发展扎实推进，全年有望延续
回升向好态势。
供给能力持续提升。今年，我国农业生产形势较好，预计全年粮食产量将首次突破1.4万亿斤。'''
# 获取关键字
# pynlpir.segment(s,)
# pos_tagging=True 是否标注词性
# pos_names='parent' ,pos_tagging=True 生效，parent是默认值，获取改词的顶级的词性，child获取改词的具体信息，all改词所
# 相关词性信息
# pos_english=False 是否以中文形式显示
words = pynlpir.segment(content,pos_tagging=True)
for word in words:
    print(word)
print("**********输出词性***********")
words = pynlpir.segment(content,pos_tagging=True,pos_names='all',pos_english=False)
for word in words:
    print("词：",word[0],"词性",word[1])
pynlpir.close() # 释放内存

代码分析与解释

该代码使用了 pynlpir 库，这是一个用于中文自然语言处理的库，主要用于分词和关键词提取等功能。下面是对代码的逐行分析及解释：

1. 导入库
import pynlpir
导入 pynlpir 模块，以便使用其中的功能进行中文文本处理。

2. 初始化分词库
pynlpir.open()  # 初始化分词库
调用 open() 方法初始化分词库。这一步是必要的，确保后续的分词和关键词提取功能可以正常使用。

3. 定义文本内容
content = '''
今年以来，面对各种困难和挑战，我国加大宏观调控力度，着力深化改革开放、扩大国内需求、优化经济结构，特别是随着存量政策加快落实以及一揽子增量政策加力推出，政策组合效应不断释放，经济回升势头增强，市场预期信心提振，9月份多项经济指标边际改善，10月份主要经济指标进一步好转，生产需求平稳增长，就业物价总体稳定，民生保障扎实有力，新质生产力加快培育，经济运行中的积极因素持续增多，高质量发展扎实推进，全年有望延续回升向好态势。
'''
定义了一个多行字符串 content，包含了关于中国经济形势的描述。

4. 获取关键字
key_words = pynlpir.get_key_words(content, weighted=False)
for keyword in key_words:
    print(keyword)
使用 get_key_words 方法从 content 中提取关键词，参数 weighted=False 表示不分析权重。
将提取到的关键词逐个打印输出。

5. 释放内存
pynlpir.close()  # 释放内存
调用 close() 方法，释放 pynlpir 占用的内存。

6. 再次初始化分词库
pynlpir.open()  # 初始化分词库
再次初始化分词库，为后续的分词操作做准备。

7. 定义新的文本内容
content = '''
今年以来，面对各种困难和挑战，我国加大宏观调控力度，着力深化改革开放、扩大国内需求、优化经济结构，
特别是随着存量政策加快落实以及一揽子增量政策加力推出，政策组合效应不断释放，经济回升势头增强，市场预期信心提振，
9月份多项经济指标边际改善，10月份主要经济指标进一步好转，生产需求平稳增长，
就业物价总体稳定，民生保障扎实有力，新质生产力加快培育，经济运行中的积极因素持续增多，高质量发展扎实推进，全年有望延续
回升向好态势。
供给能力持续提升。今年，我国农业生产形势较好，预计全年粮食产量将首次突破1.4万亿斤。'''
定义了另一个多行字符串 content，描述了中国农业生产和粮食产量的预期。

8. 获取分词和词性标注
words = pynlpir.segment(content, pos_tagging=True)
for word in words:
    print(word)
使用 segment 方法对 content 进行分词，pos_tagging=True 表示同时进行词性标注。
将分词结果逐个打印输出。

9. 输出词性信息
print("**********输出词性***********")
words = pynlpir.segment(content, pos_tagging=True, pos_names='all', pos_english=False)
for word in words:
    print("词：", word[0], "词性", word[1])
再次调用 segment 方法，获取每个词的所有词性信息，pos_names='all' 表示获取所有相关词性，pos_english=False 表示以中文形式显示。
打印每个词及其对应的词性。

10. 释放内存
pynlpir.close()  # 释放内存
再次调用 close() 方法，释放 pynlpir 占用的内存。