AI-自然语言处理-关键词提取

学习目标
   • 了解自然语言处理基本知识
   • 掌握循环神经网络算法
   • 掌握自然语言处理关键技术
   • 了解自然语言处理的应用

关键词提取
   定义
      • 关键词是代表文章重要内容的一组词,现实中大量文本不包含关键词,因此自动提取关键词技术能使人们便捷地浏览和获取信息,对文本聚类、分类、自动摘要等起重要的作用。
      • 关键词提取算法一般也可以分为有监督无监督两类。
         • 有监督:主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到提取关键词的效果。
         • 无监督不需要人工生成、维护的词表,也不需要人工标准语料辅助进行训练。例如,TF-IDF算法、TextRank算法、主题模型算法(LSA、LSI、LDA)。
   TF - IDF算法
      • 词频-逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF ):是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。
      • 例如:
          世界献血日,学校团体、献血服务志愿者等可到血液中心参观检验加工过程,我们会对检验结果进行公示,同时血液的价格也将进行公示。
            • 其中,“献血”、“血液”、“进行”、“公示”等词出现的频次均为2,如果从TF算法的角度,他们对于这篇文档的重要性是一样的。但是实际上明显“血液”、“献血”对这篇文档来说更关键
      • TF算法:是统计一个词在一篇文档中出现的频次。其基本思想是,一个词在文档中出现的次数越多,则其对文档的表达能力也就越强
            

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值