自然语言处理之——关键词提取(一)

一. 摘要

本次的分享中,我们将了解目前较常用的关键词提取技术。关键词是代表文章重要内容的一组词。在文本的分类聚类、自动摘要等方面有着重要的作用。还可以让人们更直观便捷的浏览文本信息。在现实的常用文本中是不包含关键词的,所以自动提取关键词技术有着很重要的意义。

二. 关键字提取技术概述

在巨量的信息面前,很多信息是我们无法全面接收,因此我们需要从中筛选出一些我们感兴趣的或者有代表性的信息进行接收。那么这一个过程就是关键词提取技术。如果我们可以准确的将所有的文档都用几个简单的关键词描述,那么我们便可以通过关键词了解一篇文章的内容,这将会提高信息获取到效率。

关键词提取算法一般可以分为有监督和无监督两类。有监督的关键词提取方法主要是通过分类的方式进行,首先通过创建一个比较丰富完善的词表,然后通过计算相似度判断每个文档与词表中每个词的匹配程度,类似打标签的方式,以此达到关键词提取的效果。有监督的方法虽然可以获取到较高的提取精度,但是需要大批量的标注数据,人工成本非常高。另外,现代信息量爆炸式增长,会新增出大量的新信息,一个固定的词表代表范围有限,很难将这类信息内容表述出来,但要人工维护这个受控的词表需要很大的人力成本,这就成为了有监督方法在使用上的一个很大短板。

对比有监督的关键词提取方法,无监督的方法对数据的要求就低了很多。不需要人工创建、维护词表,也不需要人工标准语料辅助进行训练。因此,这类的关键词提取技术应用更普遍。本次分享我们的主要介绍的关键词提取技术是TF-IDF算法和TextRank算法。

三. TF-IDF算法

TF-IDF算法(T

  • 5
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值