自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 【NLP】国标-信息处理用现代汉语分词规范

信息处理用现代汉语分词规范参考url:https://wenku.baidu.com/view/b81edd1910a6f524ccbf85f3.html?from=search&isbtn=2

2019-02-28 09:47:48 1050

原创 【NLP】分词之词的概念

什么是词?词是最小的(区别于词组) 能自由运用的(区别于词素) 语言单位(区别于纯语音单位)现有的语言学理论还没有给出一个对自动分词实践有指导意义的定义,大量的多语素单位到底是词还是词组,许多单语素到底是词还是词素,很难确定。自动分词的三大难题归根结底都是由于词的定义不清而引起的。...

2019-02-28 09:15:40 394

原创 【NLP】语素的概念

语素也称为词素。

2019-02-27 16:20:46 847

原创 【NLP】语言学与语音学的区别

语言包括语音和文字。语音是语言的物质外壳;文字是记录语言的符号系统。

2019-02-27 15:02:22 975

原创 【NLP】分词之最大匹配法原理

·底表:词语的静态查找表,是关于“什么是词”的明确定义,不需要词频数据,也不必将单字词列入。·最大词长:底表中最长词的长度,以字符为单位计算。·候选词:从某位置开始截取的一个字符串,初始长度为MIN(最大词长,剩余串长)。  候选词在底表中查找成功,便确定为词  候选词长度为1时不必查找,默认为词。...

2019-02-27 14:28:03 349

原创 【NLP】中文分词之未登录词

·未登录词:unknown words,unlisted words, out-of-vocabulary .·遇到未登录词时,如果没有适用的词汇发现手段,这些词就会被错误地切开,例如:  考  研  的  时候  俄罗斯  总统  梅  德  韦  杰  夫 ·有些未登录词是不可能被穷尽的,例如数字串、人名等等。·思考:基于构词知识的未登录词识别。...

2019-02-27 13:53:24 3368

原创 【NLP】中文分词歧义举例

·组合型歧义,例如:  从  马上  跳  下来       (从   马   上  跳  下来)  他  将来  我  校  讲学   (从   将 来 我 校  讲学)·交集型歧义,例如:  使用户  满意    (使用  户 满意)  研究生命  的  起源     (研究生  命  的 起源)·组合型歧义出现概率低,消解更为困难。 注:一个串可以切开也可...

2019-02-27 11:47:13 7118

原创 【NLP】中文自动分词的三大难题

1)未登录词:自动分词主要是根据底表来进行的,真实文本中存在大量的未见于底表的词语,它对自动分词正确率的影响最大。2)分词歧义:根据底表,一个串可以切开也可以不切开(组合性歧义),或者可以切在这里也可以切在那里(交集型歧义),但从上下文来看,至少有一种切法是不正确的。3)分词不一致:上下文相同或相似情况下,一个串在分词语料库中有多种切法,也许几种切法都有道理,但应该保持一致。...

2019-02-27 11:28:48 1455

原创 【算法】最大均值差异(Maximum Mean Discrepancy, MMD)损失函数原理与python代码

MMD介绍MMD(最大均值差异)是迁移学习,尤其是Domain adaptation (域适应)中使用最广泛(目前)的一种损失函数,主要用来度量两个不同但相关的分布的距离。两个分布的距离定义为:python代码样例:import torchdef guassian_kernel(source, target, kernel_mul=2.0, kernel_num=5, fix_si...

2019-02-02 16:38:07 22105 4

原创 【算法】最小生成树算法原理详解

算法简单描述1).输入:一个加权连通图,其中顶点集合为V,边集合为E;2).初始化:Vnew = {x},其中x为集合V中的任一节点(起始点),Enew = {},为空;3).重复下列操作,直到Vnew = V:a.在集合E中选取权值最小的边<u, v>,其中u为集合Vnew中的元素,而v不在Vnew集合当中,并且v∈V(如果存在有多条满足前述条件即具有相同权值的边,则...

2019-02-01 11:01:35 921

ik分词和ictclas分词两者结合

ik分词和ictclas分词两者结合,可使得分词结果更加精准。

2014-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除