word分词器

 

感谢word分词 的作者,word分词的github地址:https://github.com/ysc/word

1.什么是分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文中,单词之间会以空格作为分割符,将词与词之间进行分割,但是对于中文,没有一个显式的分割符。

正是因为缺乏这种显式的分割符,导致我们对中文中的词,进行分割的时候会出现很多的偏差。

2.分词的算法

中文分词有难度,不过也有成熟的解决方案。现有的分词算法,大概可分为三类:

 

  1. 基于字符串匹配的分词算法
  2. 基于理解的分词算法
  3. 基于统计的分词算法

 

1. 基于字符串匹配的分词算法

这种分词方法,又叫机械分词算法,它会提前维护一个大的字典,然后将句子和字典中的词进行匹配,若匹配成功,则可以进行分词处理。当然,它实际上会更复杂一些,因为当字典足够大的时候,就又涉及到不同的匹配算法,这里就不展开讲了。通常会基于 Trie 树结构,来实现高效的词图扫描。

 

2. 基于理解的分词算法

这种分词方法,通过让计算机,模拟人对句子的理解,达到识别词组的效果。其基本思想是在分词的同事进行句法、语义的分析,利用句法和语义信息来处理歧义现象。它通常会包含三部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息,来对分词歧义进行判断,即它模拟了人对句子的理解过程。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3. 基于统计的分词算法

给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法

3.分词的需求

虽然分词的算法,讲解起来很简单,但是从现有的经验来看,几乎是不存在通用且效果非常好的分词系统。每个领域,都有其独特的词汇,这很难通过有限的训练数据,捕捉到所有的语言特征。例如:通过人民日报训练的分词系统,在网络玄幻小说上,分词的效果就不会好。这是必然的,在分词系统中,没有银弹。不同的场景,对分词的要求也差异很大,通常可以从两个维度进行区分:分词速度、分词准确性。例如分词搜索,对速度要求就高于准确性的要求。而一些问答系统中,则需要对文本实现较深的理解,要求准确性高于速度要求。

不同的领域,不同的使用场景,对分词的要求是不同的,所以我们不能片面的去理解分词的准确率。并且随着新词的增加,训练数据的变化,分词的准确率也是在波动的。这也是为什么,现在吹嘘分词准确率的公司越来越少的原因。

4.分词的种类

Java分布式中文分词组件-word分词<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值