《数学之美》章 个人笔记

1 中文分词方法的演变最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出现的概率最大。里面涉及到动态规划和维特比算法,有张图表示过程:

在这里插入图片描述
2 延伸阅读:如何衡量分词的结果
2.1 分词的一致性一个准确率在97%的分词器很难讲比一个准确率在95%的分词器要好,因为要看他们选用的所谓正确的人工分词的数据是如何得来的。
2.2 词的颗粒度和层次人工分词产生不一致性的原因主要在于人们对词的颗粒度的认识问题。不同的应用中,会有一种颗粒度比另一种更好的情况。机器翻译中颗粒度大好——“联想公司”;网页搜索中小颗粒度好——“清华大学”。不同的应用构造不同的分词器?不必要且浪费。
好的做法是让一个分词器同时支持不同层次的词的切分(原理和实现文中有具体说明)
分词的不一致可以分为错误和颗粒度不一致两种
错误又分成两类:一类是越界型错误,‘北京大学生’分成‘北京大学-生’;另一类是覆盖性错误,‘贾里尼克’分成四个字。
颗粒度不一致:人工分词的不一致大多属于此类,要不断完善复合词的词典

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值