最近老是看到吹嘘百度的文章。说什么百度最理解中文,百度中文分词比google做的好。
这里不讨论这个问题,我要说的为什么要分词?分词是什么!
=================
有人问:“分词有什么作用啊?”,某人答:“搜索引擎要用到中文分词,所以非常重要”。
这完全是废话,说了等于没说。搜索引擎又为什么要分词呢?
=================
其实一般意思上指的分词是比较狭隘的意思,指中文的词是怎样划分的。因为中文没有空格,所以要理解一篇文
章,你首先当然要切分一条长句成为一个个词了。这样才能够在大脑中匹配。
ps:中文没有分词功能,真的是很糟糕的,我一直认为中国之所以没有工业革命,就是因为没有分词。对于专业书籍来说,人进行分词也是非常困难的。至少分的很慢。所以影响了知识的传播。
=================
但是,搜索引擎不是因为这个原因而需要分词的。
即使完全没有分词,搜索引擎一样可以找到所要找的东西。
人工智能, 人工 智能 ,人 工 智 能 ,对计算机有差别吗?
没有差别。
搜索引擎之所以需要中文分词,主要是因为,如果 所有文章按照单字来索引,需要的存储空间和搜索计算时间就要多的多。
例如,“人”字在所有文章中,会有无数次出现,如果你以人为索引,那么会需要添加无数条记录。而“人工”就少的多了,“人工智能”则更少。
你可以试试,编写一个人工分词软件,然后比比,单字索引,和词索引的 索引文件的大小。
基于这样的原因,所以搜索引擎才需要中文分词。
=================
为什么我说分词一般指狭义呢?英文其实也可以在词的基础上继续分词(分短语),“分词”,无非是切割语义罢了。
=================
所以我一向不认为,中文有什么特别之处,不认为只有百度可以做中文分词,世界这么大,就没有人可以比它做的好了,可笑。
分词就是这么一个简单的东西,但是要达到人分词的效果,还是很难。
现在的一般分词技术,无非是从统计学角度,和从字典角度来处理。
几十年了,算法都没有什么太大的变化,最多运算过程中有些改进,数据结构变了变。