java
wakawakaohoh
这个作者很懒,什么都没留下…
展开
-
语义去重、去包含关系、去相似
MySimHash:import com.hankcs.hanlp.seg.common.Term;import com.hankcs.hanlp.tokenizer.StandardTokenizer;import org.apache.commons.lang3.StringUtils;import org.jsoup.Jsoup;import org.jsoup.safety.Whitelist;import java.math.BigInteger;import java.util.原创 2020-11-24 16:50:20 · 381 阅读 · 0 评论 -
利用hanlp比较文本相似度
import com.hankcs.hanlp.seg.common.Term;import com.hankcs.hanlp.tokenizer.StandardTokenizer;import org.apache.commons.lang3.StringUtils;import org.jsoup.Jsoup;import org.jsoup.safety.Whitelist;import java.math.BigInteger;import java.util.ArrayList;原创 2020-10-15 17:28:15 · 2600 阅读 · 1 评论