ansj分词算法关键词提取规则

本文介绍如何使用Ansj分词算法进行关键词提取,详细阐述了Ansj关键词提取的规则,包括词性、位置和频率的影响,并展示了计算权重和得分的逻辑。关键词提取过程中考虑了标题和内容,最后提取出预设数量的关键词。
摘要由CSDN通过智能技术生成

最近用ansj分词,看关键词提取,简单写下思路,还有怎么根据具体文本来调整关键词规则呢?欢迎大家来讨论。


Ansj关键词提取规则:

影响关键词的因素:

词性、位置、频率

 

 

在KeyWordComputer 类中为某些词性预设score

 

public class KeyWordComputer {

 

private static final Map<String, Double>POS_SCORE =new HashMap<String, Double>();

 

static {

POS_SCORE.put("null", 0.0);

POS_SCORE.put("w", 0.0);

POS_SCORE.put("en", 0.0);

POS_SCORE.put("m", 0.0);

POS_SCORE.put("num", 0.0);

POS_SCORE.put("nr", 3.0);

POS_SCORE.put("nrf", 3.0);

POS_SCORE.put("nw", 3.0);

POS_SCORE.put("nt", 3.0);

POS_SCORE.put("l", 0.2);

POS_SCORE.put("a", 0.2);

POS_SCORE.put("nz", 3.0);

POS_SCORE.put("v", 0.2);

POS_SCORE.put("kw", 6.0);//关键词词性

}

 

预设关键词个数为5<

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值