中文关键词提取tfidf算法改进bsaeline

Shimmer626

已于 2022-06-24 17:46:32 修改

阅读量859

点赞数 1

文章标签： nlp

于 2022-06-24 17:07:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43560644/article/details/125448804

版权

本文探讨了关键词自动抽取技术在中文学术文档中的应用，包括TF-IDF、TextRank和LDA算法的测评。针对人文类数据集，通过改进算法，如利用实体名抽取增加词典权重和考虑词的位置特征，提升了关键词提取的准确性。实验结果显示，改进后的TF-IDF算法在准确率上有显著提升。然而，中文分词仍然是影响准确性的关键因素，不同学科的通用分词库仍有待发展。

摘要由CSDN通过智能技术生成

关键词

关键词是表达文档主题意义的最小单位。关键词自动抽取技术则是一种识别有意义且具有代表性片段或词汇(即关键词) 的自动化技术。关键词自动抽取在文本挖掘领域被称为关键词抽取 (Keyword Extraction)，在信息检索领域则通常被称为自动标引 (Automatic Indexing)，关键词提取是文献检索、自动摘要、文本分类、推荐系统等领域的基础性任务。
中文关键词提取算法：目前在中文数据集上主要使用的算法有以下三种：
在这里插入图片描述

数据集

由2000+博士论文组成，其类别和组成内容如下：
在这里插入图片描述

算法测评

使用jieba自带的tfidf，textrank及gensim的LDA算法对人文类数据集测评的准确率如下：
在这里插入图片描述

算法改进思路

语义信息：学术文档标题中所含人名、地名、书籍名等实体名作为关键词的概率较大，使用了Hanlp对标题中的内容进行实体名抽取，制作词典，提高词典中词语权重。
位置特征：若关键词在文档中的词频较高，其出现的首尾位置差值约为会有文档一半的词汇。通过位置差对提取的关键词进一步筛选。

改进效果

改进后的TF/IDF算法与原算法在2000+数据集上提取准确率对比如下：
在这里插入图片描述

总结

目前关键词提取的准确率任然极大地依赖于中文分词，目前在不同学科论文中测试，未发现通用的中文分词库，分词测试文本见下例：“我想过过过儿过过的生活,标准化方差，基于神经网络的磷酸铁锂电池SOC预测研究，王鹏运等《庚子秋词》在“词史”上的意义”，测试结果如下图jieba paddle分词结果
在这里插入图片描述
其它分词结果

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Shimmer626 CSDN认证博客专家 CSDN认证企业博客

码龄6年

11: 原创

106万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

289: 积分

43: 粉丝

81: 获赞

10: 评论

77: 收藏

私信

关注

热门文章

分类专栏

笔记 1篇

最新评论

lxml库常用函数Demo
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题为“lxml库常用函数Demo”的博文内容令人期待。您的努力和持续创作让读者们受益匪浅。在下一步的创作中，或许您可以结合实际案例，深入解析lxml库的高级功能，或者分享一些在使用该库时遇到的挑战和解决方案。期待您继续保持谦虚的态度，为我们带来更多有价值的内容。加油！
GTK在windows VS2017(13以上版本)环境搭建
xueshaoyu: 还是找不到头文件
GTK在windows VS2017(13以上版本)环境搭建
mabaishun: 安装vcpkg后怎么配置环境
nuc企业微信自动打卡 autojs
Shimmer626: 等待软件加载相应页面
nuc企业微信自动打卡 autojs
weixin_51700842: 为什么要while(!click(“ ”)); 而不能直接click(“ ”) 求解

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。