关键词
关键词是表达文档主题意义的最小单位。关键词自动抽取技术则是一种识别有意义且具有代表性片段或词汇(即关键词) 的自动化技术。关键词自动抽取在文本挖掘领域被称为关键词抽取 (Keyword Extraction),在信息检索领域则通常被称为自动标引 (Automatic Indexing),关键词提取是文献检索、自动摘要、文本分类、推荐系统等领域的基础性任务。
中文关键词提取算法:目前在中文数据集上主要使用的算法有以下三种:
数据集
由2000+博士论文组成,其类别和组成内容如下:
算法测评
使用jieba自带的tfidf,textrank及gensim的LDA算法对人文类数据集测评的准确率如下:
算法改进思路
- 语义信息:学术文档标题中所含人名、地名、书籍名等实体名作为关键词的概率较大,使用了Hanlp对标题中的内容进行实体名抽取,制作词典,提高词典中词语权重。
- 位置特征:若关键词在文档中的词频较高,其出现的首尾位置差值约为会有文档一半的词汇。通过位置差对提取的关键词进一步筛选。
改进效果
改进后的TF/IDF算法与原算法在2000+数据集上提取准确率对比如下:
总结
目前关键词提取的准确率任然极大地依赖于中文分词,目前在不同学科论文中测试,未发现通用的中文分词库,分词测试文本见下例:“我想过过过儿过过的生活,标准化方差,基于神经网络的磷酸铁锂电池SOC预测研究,王鹏运等《庚子秋词》在“词史”上的意义”,测试结果如下图jieba paddle分词结果
其它分词结果