AI-自然语言处理-关键词提取

最新推荐文章于 2024-04-17 10:24:02 发布

TKE_kolento.

最新推荐文章于 2024-04-17 10:24:02 发布

阅读量2.8k

点赞数

分类专栏：自然语言处理文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_46414576/article/details/106409178

版权

学习目标
   • 了解自然语言处理基本知识
   • 掌握循环神经网络算法
   • 掌握自然语言处理关键技术
   • 了解自然语言处理的应用

关键词提取
   定义
      • 关键词是代表文章重要内容的一组词，现实中大量文本不包含关键词，因此自动提取关键词技术能使人们便捷地浏览和获取信息，对文本聚类、分类、自动摘要等起重要的作用。
      • 关键词提取算法一般也可以分为有监督和无监督两类。
         • 有监督：主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后通过判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到提取关键词的效果。
         • 无监督：不需要人工生成、维护的词表，也不需要人工标准语料辅助进行训练。例如，TF-IDF算法、TextRank算法、主题模型算法（LSA、LSI、LDA）。
   TF - IDF算法
      • 词频-逆文档频率算法（Term Frequency-Inverse Document Frequency，TF-IDF ）:是一种基于统计的计算方法，常用于评估在一个文档集中一个词对某份文档的重要程度。
      • 例如：
          世界献血日，学校团体、献血服务志愿者等可到血液中心参观检验加工过程，我们会对检验结果进行公示，同时血液的价格也将进行公示。
            • 其中，“献血”、“血液”、“进行”、“公示”等词出现的频次均为2，如果从TF算法的角度，他们对于这篇文档的重要性是一样的。但是实际上明显“血液”、“献血”对这篇文档来说更关键。
      • TF算法：是统计一个词在一篇文档中出现的频次。其基本思想是，一个词在文档中出现的次数越多，则其对文档的表达能力也就越强。

最低0.47元/天解锁文章

TKE_kolento.

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
AI-自然语言处理-关键词提取

学习目标   • 了解自然语言处理基本知识   • 掌握循环神经网络算法   • 掌握自然语言处理关键技术   • 了解自然语言处理的应用正确的词性关键词提取   定义      • 关键词是代表文章重要内容的一组词，现实中大量文本不包含关键词，因此自动提取关键词技术能使人们便捷地浏览
复制链接

扫一扫