学习笔记-基于语言模型的中文分词器

1、中文分词

中文分词的使用场景:搜索引擎、新闻网站

体验分词:http://ai.baidu.com/tech/nlp/lexical

常见分析方法:

  • 词典的机械切分
  • 模型的序列标注

中文分词的难点:

  • 歧义切分
  • 未登录词识别(新词)

2、语言模型

2.1原理

一个句子是否合理,就看它的概率大小如何,我们可以将一个句子表示为词的联合概率,并用条件概率公式写出来,可以使用频率估计条件概率,复杂的条件概率比较难计算,马尔可夫假设被提出,句子的联合概率可以被改写成N-Gram形式的条件概率,语言模型随着元数据的增加,时间空间复杂度都很高,而且会遇到零概率的问题,这导致语言模型不能处理更长期的依赖,语言模型的悬链就是统计条件概率,处理零概率可以使用一些平滑策略。

2.1.1联合概率

2.2.2条件概率估计

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值