解决语义重复,语义包含关系

生成的文本会出现语义包含现象,现在有过滤掉出现语义包含的语句

import com.hankcs.hanlp.seg.common.Term;
import com.hankcs.hanlp.tokenizer.StandardTokenizer;

import java.util.ArrayList;
import java.util.List;

/**
 * created by liangpengfei on 2020/10/15
 */
public class FilterInclusion {
    public List<Term> getSegList(String sen) {
        List<Term> termList = StandardTokenizer.segment(sen);
        return termList;
    }

    public double getSimiliarity(String s1, String s2) {
        List ls1 = getSegList(s1);
        List ls2 = getSegList(s2);
        int len = ls1.size() <= ls2.size() ? ls1.size() : ls2.size();
        double count = 0;
        double similarity = 0;
        for (int i = 0; i < len; i++) {
            List ls3 = ls2.subList(0, len);
            if (ls3.contains(ls1.get(i))) {
                count += 1;
            }
        }
        similarity = count / (len);
        return similarity;
    }

    public List<String> drop_duplicate(List stringList) {
        for (int i = 0; i < stringList.size(); i++) {
            if (i + 1 == stringList.size()) {
                return stringList;
            }
            String str1 = (String) stringList.get(i);
            String str2 = (String) stringList.get(i + 1);
            double similarity = getSimiliarity(str1, str2);
            if (similarity >= 0.4) {
                if (str1.length() >= str2.length()) {
                    stringList.remove(i + 1);
                } else {
                    stringList.remove(i);
                }
            }

        }
        return stringList;
    }

    public static void main(String[] args) {
        FilterInclusion test = new FilterInclusion();
        List<String> stringList = new ArrayList<String>();
        stringList.add("风电装机大幅下降");
        stringList.add("产品价格竞争加剧");
        stringList.add("行业周期导致公司经营业绩的波动性风险、应收账款及应收票据余额较大的风险,较高利润率不能维持的风险,新产品拓展速度不及预期的风险");
        stringList.add("行业竞争加剧");
        stringList.add("下游需求不及预期");
        stringList.add("下游需求低于预期、价格战恶化、核心器件自产率提升进度不及预期");
        stringList.add("产品国产化替代进度不及预期");
        System.out.println(stringList);
        System.out.println(test.drop_duplicate(stringList));
    }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值