nlp_关键词提取总结

本文介绍了关键词提取的重要性,如用于文献检索和文本聚类,并详细讨论了关键词抽取的两种方法:关键词分配和关键词抽取。关键词抽取进一步分为仅抽取词语和连词短语抽取,并提到了TF-IDF、TextRank和ICTCLAS等算法。不依赖外部知识库的TextRank算法通过词频和相邻词的关系确定关键词,而ICTCLAS则考虑了词的左右熵。文章末尾提供了相关参考资料和交流平台。
摘要由CSDN通过智能技术生成

关键词提取:从文本中提取出与这篇文章意义最相关的词语。
关键词的作用:
1、文献检索初期,关键词作为搜索这篇论文的词语。
2、在文本聚类、分类、摘要等领域中有着重要的作用。
——比如聚类时把关键词相似的几篇文章看成一个类团可以大大K-means聚类的收敛速度。
关键词提取大致有两种:
1、关键词分配——从给定的关键词库里面找到几个词作为这篇文章的关键词。
2、关键词抽取——从文章中抽取一些词语作为这篇文章的关键词。
(目前大多数领域无关的关键词抽取算法和它对应的库都是基于后者的。从逻辑上说,后者比前者在实际应用中更有意义。)
- 关键词抽取也可以分为两种:
1.仅仅把词语抽取出来,实现较简单,比如:FundanNLP、jieba、SnowNLP。
2.连词和短语一起抽取出来,这个还需要增加短语抽取这一步骤,实现如:ICTCLAS、ansj_seg等,可以把类似于“智能手机”、“全面深化改革”、“非公有制经济”这些短语抽取出来。(对于聚类或者分类来说,很明显短语比词语更有价值)

  • 关键词抽取算法分为:
    1.使用外部的知识库——
    比如《数学之美》中介绍的TF-IDF关键词提取算法就是需要保存每个词的IDF值作为外部知识库。(TF-IDF思路是可以找到文本中常见但是在别的文本中不常见的词语,这个正好符合关键词的特点。);初代KEA算法除了使用了TF-IDF外还用到了词语在文章中首次出现的位置。(KEA算法的核心思想是大多数文章(特别是新闻文本)是总分总的结构,很明显一个词语出现在文章首部和尾部成为关键词的可能性大于只出现在文章中部的词语。对各个词根据在

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值