关于最近研究的关键词提取keyword extraction做的笔记

最新推荐文章于 2024-04-08 09:34:03 发布

beck_zhou

最新推荐文章于 2024-04-08 09:34:03 发布

阅读量4.3k

点赞数

分类专栏：中文分词（分词/人名识别（命名实体识别）/词性标注）转型——创业/经济/金融/投资/理财算法研究(数据挖掘、机器学习、自然语言、深度学习、搜索引擎) 文章标签： features generation query frameworks header semantic

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhoubl668/article/details/7466055

版权

本文探讨了关键词提取的经典方法，包括基于概念、查询日志和关键词扩展的策略。重点介绍了不同特征的重要性，如词性标注、首字母大写、在网页元素中的位置、TF-IDF等，并讨论了这些特征在广告关键词推荐、问答系统和文档分类中的应用。

摘要由CSDN通过智能技术生成

之前内容的整理

要求：第一: 首先找出具有proposal性质的paper,归纳出经典的方法有哪些. 第二:我们如果想用的话,哪种更实用或者易于实现? 哪种在研究上更有意义.

第一，较好较全面地介绍keyword extraction的经典特征的文章《Finding Advertising Keywords on Web Pages》.

基于概念的keywords提取，使用概念、分类来辅助关键词抽取。较经典的文章《Discovering Key Concepts in Verbose Queries》,《A study on automatically extracted keywords in text categorization》

基于查询日志的keywords提取，有文章《Using the wisdom of the crowds for keyword generation》,《Keyword Extraction for Contextual Advertisement》

Keywords扩展，keywords生成《Keyword Generation for Search Engine Advertising using Semantic Similarity》, 《Using the wisdom of the crowds for keyword generation》,《n-Keyword based Automatic Query Generation》

第二，较常用的特征，之前研究者提到过的特征：

《Finding Advertising Keywords on web pages》中提到过的特征

1.语言特征词性标注

2.首字母大写

3.关键词是否在hypertext里

4.关键词是否在meta data里

5.关键词是否在title里

6.关键词是否在url里

7.TF,DF

8.关键词所处位置信息

9.关键词所在句子长度及文档长度

10.候选短语的长度

11.查询日志

我想到的特征

1.周围信息含量，附近几个词甚至是一个句子的平均信息含量。

2.语义距离，使用co-occurance.

3.NE。曾经在IE抽取中使用过。

4.关键词之间的关系，语义距离。divergance是越大愈好还是越小越好。或者没有影响？

2.3.2.1 Lin: linguistic features.

The linguistic informati

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。