西南民族大学自然语言处理期末整理

本文探讨了困惑度在语言模型中的含义,以及语料库在语言学研究中的作用,区分了共时和历时语料库,并重点介绍了平衡语料库的概念,以及汉语分词中的合并原则。
摘要由CSDN通过智能技术生成

困惑度定义: 困惑度表示用一个语言模型来预测一个文本序列的困难程度,也可以理解为该模型对于新文本的预测能力。

耦合度定义:

语料库: 语料库  (corpus)  就是存放语言材料的仓库  (语言数据库)

语料库语言学: 

1、不是新术语:利用语料库对语言的某个方面进行研究,或者发现某些规律性知识

2、是新术语:对现行语言学理论进行批评,提出新的理论

共时语料库&历时语料库:

共时: 是为了对语言进行共时 (同一时段) 研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。

历时:  是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。

判断历时语料库规则:

1、是否动态:语料库必须是开放的、动态的

2、文本是否具有量化的流通度属性:所有的语料都应来源于大众传媒,具有与传媒特色相应的流通度属性。其量化的属性值也是动态的。

3、深加工是否基于动态的加工方法:随语料的动态变化采集,并进行动态地加工。

4、是否取得动态的加工结果:语料的加工结果也应是动态的和历时的

平衡语料库: 平衡语料库着重考虑语料的代表性与平衡性。

平衡语料库: 1、一种是指在同一种语言的语料上的平行 2、另一种平行语料库是指在两种或多种语言之间的平行采样和加工, 例如,机器翻译中的双语对齐语料库

3、了解汉语分词的基本规则

3.1 语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。(合并原则)

3.2 语类无法由组合成分直接得到的字串应该合并为一个分词单位。(合并原则)

3.3 切分原则:有明显分隔符标记的应该切分之分隔标记指标点符号或一个词。

3.4合并原则:附着性语  (词)  素和前后词合并为一个分词单位。

3.5 合并原则:使用频率高或共现率高的字串尽量合并为一个分词单

位。

3.6 合并原则:双音节加单音节的偏正式名词尽量合并为一个分词单

位。

3.7 合并原则:双音节结构的偏正式动词应尽量合并为一个分词单位。

3.8 切分原则:内部结构复杂、合并起来过于冗长的词尽量切分。

3.9 切分原则:内部结构复杂、合并起来过于冗长的词尽量切分。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值