SDU创新实训 8.对文献摘要进行命名实体识别提取关键词

本文介绍了一种创新的命名实体识别方法,通过自定义词典和词性标注实现高效识别,避免了依赖通用工具的局限。项目中特别强调本地用户词典的构建和关键词的筛选,适用于特定领域的文本处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现在有很多命名实体识别开源工具,stanfordnlp,hanlp等等,但都不适用于本项目,经过一一尝试学习,觉得可以用,但没必要

本项目NER思路:(主要通过自定义词典定义关键词词性,对用户输入文本进行词性标注,然后根据词性进行命名实体识别)

  1. 对之前处理得到的所有关键词构建本地用户词典,
    eg:在这里插入图片描述
    利用jieba.load_userdict("…/data/userdict.txt")加载本地词典进行分词。得到在词典中的关键词

  2. 对问题进行词性标注,每个分的词后还有一个标注的词性
    abstract_seged = jieba.posseg.cut(str(clean_abstract))

  3. 对分词词性后的对象分析,只要关键词

 for w in abstract_seged:
        if w.flag=='ngg':
        # 预处理问题
            word= w.word
            abstract_word.append(str(word).strip())
    abstract_word=list(set(abstract_word))

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值