NLP(CAS10年NLP课程note)

语言模型
幂律分布
齐夫定律(英语:Zipf’s law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。

词法分析与词性标注
概述
词是自然语言中能够独立运用的最小单位,
是自然语言处理的基本单位
自动词法分析就是利用计算机对自然语言
的形态 (morphology) 进行分析,判断词的结构
和类别等
词性或称词类(Part-of-Speech, POS)是词汇
最重要的特性,是连接词汇到句法的桥梁
不同语言的词法分析
曲折语(如,英语、德语、俄语等
黏着语(如:日语等)
分析语(孤立语)(如:汉语)
汉语自动分词
重要性
自动分词是汉语句子分析的基础
词语的分析具有广泛的应用(词频统计,词典编
纂,文章风格研究等
主要问题
汉语分词规范问题 (《信息处理用限定汉语分
词规范(GB13715)》 ) - 汉语中什么是词?两个不清的界限
单字词与词素,如:新华社25日讯
词与短语,如:花草,湖边,房顶,鸭蛋,小
鸟,担水,一层,翻过?
歧义切分字段处理
1、中国人为了实现自己的梦想 (交集型歧义)
中国/ 人为/ 了/ 实现/ 自己/ 的/ 梦想
中国人/ 为了/ 实现/ 自己/ 的/ 梦想
中/ 国人/ 为了/ 实现/ 自己/ 的/ 梦想
例如:“大学生”、“研究生物”、“从小学
起”、“为人民工作”、“中国产品质量”、
“部分居民生活水平”等等
链长 一个交集型切分歧义所拥有的交集串
的集合称为交集串链,它的个数称为链长。
(1) “为人民工作”
{人,民,工},歧义字段的链长为 3;
(2) “中国产品质量”
{国,产,品,质},歧义字段的链长为 4;
(3) “部分居民生活水平”
{分,居,民,生,活,水},链长为 6。
2、门把手弄坏了。 (组合型歧义) 门/ 把/ 手/ 弄/ 坏/ 了/ 。 门/ 把手/ 弄/ 坏/ 了/ 。
例如,“将来”、“现在”、“才能”、
“学生会”等,都是组合型歧义字段。
未登录词的识别
1、人名、地名、组织机构名等,例如:
盛中国,张建国,李爱国,蔡国庆,令计划;
高升,高山,夏天,温馨,武夷山,时光;
彭太发生,朱李月华;赛福鼎·艾则孜,爱新觉
罗·溥仪;平川三太郎,约翰·斯特朗
2、新出现的词汇、术语、个别俗语等,例如:
博客,非典,禽流感,恶搞,微信,给力,失联
汉语自动分词的基本原则
1、语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。(合并原则)
例如:不管三七二十一(成语),或多或少(副词片语),十三点(定量结构),六月(定名结构),谈谈(重叠结构,表示尝试),辛辛苦苦(重叠结构,加强程度),进出口(合并结构)
2、语类无法由组合成分直接得到的字串应该合并为一个分词单位。 (合并原则)
(1)字串的语法功能不符合组合规律,如:好吃,
好喝,好听,好看等
(2)字串的内部结构不符合语法规律,如:游水等
汉语自动分词的辅助原则
操作性原则,富于弹性,不是绝对的
1. 有明显分隔符标记的应该切分之 (切分原则)
分隔标记指标点符号或一个词。如:
上、下课  上/ 下课
洗了个澡  洗/ 了/ 个/ 澡
2. 附着性语(词)素和前后词合并为一个分词单位
(合并原则)
例如:“吝”是一个附着语素,“不吝”、“吝于”
等合并成一个词;
“员”:检查员、邮递员、技术员等;
“化”:现代化、合理化、多变化、民营化等。
3. 使用频率高或共现率高的字串尽量合并为一个分词单位 (合并原则)
如:“进出”、“收放”(动词并列);“大笑”、 “改称”(动词偏正);“关门”、“洗衣”、 “卸货”(动宾结构);“春夏秋冬”、“轻重缓急”、“男女”(并列结构);“象牙”(名词偏正);“暂不”、“毫不”、“不再”、 “早已”(副词并列)等
4. 双音节加单音节的偏正式名词尽量合并为一个分词单位 (合并原则)
如:“线、权、车、点”等所构成的偏正式名词:
“国际线、分数线、贫困线”、“领导权、发言权、
知情权”、“垃圾车、交通车、午餐车”、“立足
点、共同点、着眼点”等。
5. 双音节结构的偏正式动词应尽量合并为一个分词单位 (合并原则)
本原则只适合少数偏正式动词,如:“紧追其后”、 “组建完成”等,不适合动宾及主谓式复合动词。
6. 内部结构复杂、合并起来过于冗长的词尽量切分(切分原则)
(1) 词组带接尾词
太空/ 计划/ 室、塑料/ 制品/ 业
(2) 动词带双音节结果补语
看/ 清楚、讨论/ 完毕
(3) 复杂结构:自来水/ 公司、中文/ 分词/ 规范/ 研 究/ 计划
(4) 正反问句:喜欢/ 不/ 喜欢、参加/ 不/ 参加
(5)动宾结构、述补结构的动词带词缀时
写信/ 给、取出/ 给、穿衣/ 去
(6) 词组或句子的专名,多见于书面语,戏剧名、歌曲名等
鲸鱼/ 的/ 生/ 与/ 死、那/ 一/ 年/ 我们/
都/ 很/ 酷
(7) 专名带普通名词
胡/ 先生、京沪/ 铁路
分词与词性标注
结果评价方法

两种测试
封闭测试 / 开放测试
专项测试 / 总体测试
评价指标
正确率Correcct ratio/Precision,P:测试结果中正确切分或标注的个数占系统所有输出结果的
比例。
假设系统输出N 个,其中,正确的结果
为n个,那么

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值