自然语言处理
wakawakaohoh
这个作者很懒,什么都没留下…
展开
-
语义去重、去包含关系、去相似
MySimHash: import com.hankcs.hanlp.seg.common.Term; import com.hankcs.hanlp.tokenizer.StandardTokenizer; import org.apache.commons.lang3.StringUtils; import org.jsoup.Jsoup; import org.jsoup.safety.Whitelist; import java.math.BigInteger; import java.util.原创 2020-11-24 16:50:20 · 399 阅读 · 0 评论 -
对长文本的聚类
需求:长文本的实时聚类\离线聚类,聚类新闻中重复或相似的文章 BERT取句首[CLS]向量做聚类效果并不好,取出所有向量做处理做聚类据 说效果提升,没试,而且位置编码时速度太慢,弃用。 SBERT没试。 HashTrick+DBSCAN,效果不错,采用 Single-Pass Clustering,效果应该也可以,没试。参考知乎Single-Pass Clustering ...原创 2020-11-19 20:14:15 · 771 阅读 · 0 评论 -
使用单例模式只加载一次模型
模型预测时使用单例模式避免重复加载 def singleton(cls): # 单下划线的作用是这个变量只能在当前模块里访问,仅仅是一种提示作用 # 创建一个字典用来保存类的实例对象 _instance = {} def _singleton(*args, **kwargs): # 先判断这个类有没有对象 if cls not in _instance: _instance[cls] = cls(*args, **kw原创 2020-11-17 20:33:23 · 918 阅读 · 0 评论