算法
算法
大牛在路上
正在路上的码农。
展开
-
基于《知网》的词汇语义相似度计算以及复现
问题描述:“西红柿”和“茄子”这两个词,基于字面检测相似度为0,但是我们都知道它是一个东西,所以引入基于语义的相似度检测。语义相似定义 两个任意的词语如果在不同的上下文中可以相互替换且不改变文本的语义的可能性越大,那么两者之间的相似度就越高,否则相似度就越低。(参考文献:刘群,李素建,基于《知网》的词汇语义相似度计算,中文计算语言学,2002,7(2):59-76.)语义距离定义:数值在0到正无穷,0表示相似度为1,正无穷表示相似度为0。检测方法:1.基于世界知识。根据世界知识方法一般是利原创 2020-06-30 12:22:22 · 2223 阅读 · 0 评论 -
相似重复记录清洗的过程及算法研究
相似重复记录清洗基本过程:1.准备阶段。1)选择关键属性字段。2)分配权重。2.选择属性字段匹配算法。3.检测。比较阈值,大于阈值则认为两条记录相似重复。4.相似重复记录清理。原创 2020-06-12 11:19:57 · 1162 阅读 · 0 评论 -
动态规划思路以及求最长子序列的算法
相关概念:状态:子问题相关的各个变量的一组取值。无后效性:子问题的解取值与解题路径无关。动态规划:解题步骤:1.将原问题分解为子问题。2.确定状态。3.确定边界状态。4.确定状态转移方程。特点:1.问题具有最优子结构2.无后效性。求最长子序列的算法问题描述:解题思路:1.将原问题分解为子问题,并且子问题满足无后效性。以 a[i]为终点 对应的最长序列为子问题。2.确定状态。maxLen(a【i】),其中a【k】为小于a【i】的数...原创 2020-06-23 22:35:23 · 475 阅读 · 0 评论