- 博客(10)
- 资源 (1)
- 收藏
- 关注
原创 【NLP】国标-信息处理用现代汉语分词规范
信息处理用现代汉语分词规范参考url:https://wenku.baidu.com/view/b81edd1910a6f524ccbf85f3.html?from=search&isbtn=2
2019-02-28 09:47:48 1050
原创 【NLP】分词之词的概念
什么是词?词是最小的(区别于词组) 能自由运用的(区别于词素) 语言单位(区别于纯语音单位)现有的语言学理论还没有给出一个对自动分词实践有指导意义的定义,大量的多语素单位到底是词还是词组,许多单语素到底是词还是词素,很难确定。自动分词的三大难题归根结底都是由于词的定义不清而引起的。...
2019-02-28 09:15:40 394
原创 【NLP】分词之最大匹配法原理
·底表:词语的静态查找表,是关于“什么是词”的明确定义,不需要词频数据,也不必将单字词列入。·最大词长:底表中最长词的长度,以字符为单位计算。·候选词:从某位置开始截取的一个字符串,初始长度为MIN(最大词长,剩余串长)。 候选词在底表中查找成功,便确定为词 候选词长度为1时不必查找,默认为词。...
2019-02-27 14:28:03 349
原创 【NLP】中文分词之未登录词
·未登录词:unknown words,unlisted words, out-of-vocabulary .·遇到未登录词时,如果没有适用的词汇发现手段,这些词就会被错误地切开,例如: 考 研 的 时候 俄罗斯 总统 梅 德 韦 杰 夫 ·有些未登录词是不可能被穷尽的,例如数字串、人名等等。·思考:基于构词知识的未登录词识别。...
2019-02-27 13:53:24 3368
原创 【NLP】中文分词歧义举例
·组合型歧义,例如: 从 马上 跳 下来 (从 马 上 跳 下来) 他 将来 我 校 讲学 (从 将 来 我 校 讲学)·交集型歧义,例如: 使用户 满意 (使用 户 满意) 研究生命 的 起源 (研究生 命 的 起源)·组合型歧义出现概率低,消解更为困难。 注:一个串可以切开也可...
2019-02-27 11:47:13 7118
原创 【NLP】中文自动分词的三大难题
1)未登录词:自动分词主要是根据底表来进行的,真实文本中存在大量的未见于底表的词语,它对自动分词正确率的影响最大。2)分词歧义:根据底表,一个串可以切开也可以不切开(组合性歧义),或者可以切在这里也可以切在那里(交集型歧义),但从上下文来看,至少有一种切法是不正确的。3)分词不一致:上下文相同或相似情况下,一个串在分词语料库中有多种切法,也许几种切法都有道理,但应该保持一致。...
2019-02-27 11:28:48 1455
原创 【算法】最大均值差异(Maximum Mean Discrepancy, MMD)损失函数原理与python代码
MMD介绍MMD(最大均值差异)是迁移学习,尤其是Domain adaptation (域适应)中使用最广泛(目前)的一种损失函数,主要用来度量两个不同但相关的分布的距离。两个分布的距离定义为:python代码样例:import torchdef guassian_kernel(source, target, kernel_mul=2.0, kernel_num=5, fix_si...
2019-02-02 16:38:07 22105 4
原创 【算法】最小生成树算法原理详解
算法简单描述1).输入:一个加权连通图,其中顶点集合为V,边集合为E;2).初始化:Vnew = {x},其中x为集合V中的任一节点(起始点),Enew = {},为空;3).重复下列操作,直到Vnew = V:a.在集合E中选取权值最小的边<u, v>,其中u为集合Vnew中的元素,而v不在Vnew集合当中,并且v∈V(如果存在有多条满足前述条件即具有相同权值的边,则...
2019-02-01 11:01:35 921
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人