为什么要分词

最近老是看到吹嘘百度的文章。说什么百度最理解中文,百度中文分词比google做的好。

这里不讨论这个问题,我要说的为什么要分词?分词是什么!

=================

有人问:“分词有什么作用啊?”,某人答:“搜索引擎要用到中文分词,所以非常重要”。

这完全是废话,说了等于没说。搜索引擎又为什么要分词呢?

=================

其实一般意思上指的分词是比较狭隘的意思,指中文的词是怎样划分的。因为中文没有空格,所以要理解一篇文

章,你首先当然要切分一条长句成为一个个词了。这样才能够在大脑中匹配。

ps:中文没有分词功能,真的是很糟糕的,我一直认为中国之所以没有工业革命,就是因为没有分词。对于专业书籍来说,人进行分词也是非常困难的。至少分的很慢。所以影响了知识的传播。

=================

但是,搜索引擎不是因为这个原因而需要分词的。

即使完全没有分词,搜索引擎一样可以找到所要找的东西。

人工智能, 人工 智能 ,人 工 智 能 ,对计算机有差别吗?

没有差别。

搜索引擎之所以需要中文分词,主要是因为,如果 所有文章按照单字来索引,需要的存储空间和搜索计算时间就要多的多。

例如,“人”字在所有文章中,会有无数次出现,如果你以人为索引,那么会需要添加无数条记录。而“人工”就少的多了,“人工智能”则更少。

你可以试试,编写一个人工分词软件,然后比比,单字索引,和词索引的 索引文件的大小。

基于这样的原因,所以搜索引擎才需要中文分词。

=================

为什么我说分词一般指狭义呢?英文其实也可以在词的基础上继续分词(分短语),“分词”,无非是切割语义罢了。

=================

所以我一向不认为,中文有什么特别之处,不认为只有百度可以做中文分词,世界这么大,就没有人可以比它做的好了,可笑。

分词就是这么一个简单的东西,但是要达到人分词的效果,还是很难。

现在的一般分词技术,无非是从统计学角度,和从字典角度来处理。

几十年了,算法都没有什么太大的变化,最多运算过程中有些改进,数据结构变了变。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值