中文关键词提取tfidf算法改进bsaeline

本文探讨了关键词自动抽取技术在中文学术文档中的应用,包括TF-IDF、TextRank和LDA算法的测评。针对人文类数据集,通过改进算法,如利用实体名抽取增加词典权重和考虑词的位置特征,提升了关键词提取的准确性。实验结果显示,改进后的TF-IDF算法在准确率上有显著提升。然而,中文分词仍然是影响准确性的关键因素,不同学科的通用分词库仍有待发展。
摘要由CSDN通过智能技术生成

关键词

关键词是表达文档主题意义的最小单位。关键词自动抽取技术则是一种识别有意义且具有代表性片段或词汇(即关键词) 的自动化技术。关键词自动抽取在文本挖掘领域被称为关键词抽取 (Keyword Extraction),在信息检索领域则通常被称为自动标引 (Automatic Indexing),关键词提取是文献检索、自动摘要、文本分类、推荐系统等领域的基础性任务。
中文关键词提取算法:目前在中文数据集上主要使用的算法有以下三种:
在这里插入图片描述

数据集

由2000+博士论文组成,其类别和组成内容如下:
在这里插入图片描述
在这里插入图片描述

算法测评

使用jieba自带的tfidf,textrank及gensim的LDA算法对人文类数据集测评的准确率如下:
在这里插入图片描述

算法改进思路

  • 语义信息:学术文档标题中所含人名、地名、书籍名等实体名作为关键词的概率较大,使用了Hanlp对标题中的内容进行实体名抽取,制作词典,提高词典中词语权重。
  • 位置特征:若关键词在文档中的词频较高,其出现的首尾位置差值约为会有文档一半的词汇。通过位置差对提取的关键词进一步筛选。

改进效果

改进后的TF/IDF算法与原算法在2000+数据集上提取准确率对比如下:
在这里插入图片描述

总结

目前关键词提取的准确率任然极大地依赖于中文分词,目前在不同学科论文中测试,未发现通用的中文分词库,分词测试文本见下例:“我想过过过儿过过的生活,标准化方差,基于神经网络的磷酸铁锂电池SOC预测研究,王鹏运等《庚子秋词》在“词史”上的意义”,测试结果如下图jieba paddle分词结果
在这里插入图片描述
其它分词结果
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值