关于分词后相同词性词语合并的方法

梦与诗

已于 2023-01-23 18:41:44 修改

阅读量318

点赞数

文章标签： python 中文分词自然语言处理

于 2023-01-23 17:28:28 首次发布

本文链接：https://blog.csdn.net/weixin_44792660/article/details/128753221

版权

近日一项进行的工作中，需要判断一段文本中的实体名词。在操作过程中，发现网上没有对相同词性的词语进行合并的方法，比如我要将一句话中同为名词的词语给合并出来。
如，原句为“经刑侦总队核实，冻结原因涉及通州分局永顺派出所案件，非本人使用”
经分词的结果为“经刑侦总队核实，冻结原因涉及通州分局永顺派出所案件，非本人使用”
我想要的结果是将名词合并，即“经刑侦总队核实，冻结原因涉及通州分局永顺派出所案件，非本人使用”

合并两个词语成为一个词语，在分词方法中可以建立词典，但是当面临大量的文本语料中是没有方法快速的建立所有名词组合的词典的，故放弃该方法

本人使用的分词方法为北大的pkuseg，需合并的词性为n-名词与j-简称，代码为：

import pkuseg
cixing = ['n','j']
seg1 = 	pkuseg.pkuseg(postag=True)
fenci_sentence = seg1.cut('经刑侦总队核实，冻结原因涉及通州分局永顺派出所案件，非本人使用')
Noun_aggregation = []
sum_noun = 0
sum_no_noun = 0
for i in range(0, len(fenci_sentence)):
    if i == 0:
        if any(e in fenci_sentence[0][1] for e in cixing) == True:
            sum_noun += 1
            Noun_aggregation.append(fenci_sentence[0][0])
        else:
            sum_no_noun += 1
            Noun_aggregation.append(fenci_sentence[0][0])
    else:
        if any(e in fenci_sentence[i][1] for e in cixing) != True:
            sum_no_noun +=1
            Noun_aggregation.append(fenci_sentence[i][0])
        elif any(e in fenci_sentence[i-1][1] for e in cixing) != True and any(e in fenci_sentence[i][1] for e in cixing) == True:        
            sum_noun += 1
            Noun_aggregation.append(fenci_sentence[i][0])
        else:
            Noun_aggregation[sum_noun + sum_no_noun - 1] = Noun_aggregation[sum_noun + sum_no_noun - 1] + fenci_sentence[i][0]
print(" ".join(Noun_aggregation))