前言:本文是【读书笔记|大数据时代的数据挖掘】系列的第六篇,是关乎第六章智能问答系统的读书笔记。智能问答系统在我们的生活中很常见,比如智能音箱等。
一、发展历史
- 智能技术诞生于20c50s-60s。
- 20c90s,检索式问答时代。搜索引擎等之类的。
- 21c后,智能聊天机器人发展。
二、句法分析
1、中文分词技术
1987年第一个实现中文分词的系统CDWS,主要算法有以下几种:
-
词典法
基于一定策略将待切分的字符串与词典中词条进行匹配,从而实现对字符串的切分。
匹配原则:逐词匹配、最大匹配、最小匹配、最佳匹配。 -
统计法
上下文中相邻字同时出现的次数越多,就月可能构成一个词。
主要有- N-gram模型:假设第n个词的出现只与前面n-1个词相关;
- 马尔可夫模型:假设第n个词的出现只与前面的几个词相关。如果认为与前面一个词相关,就是bi-gram,两个词就是tri-gram;
- 隐马尔可夫模型.
-
语义理解法
NLPIR分词;
张华平博士开发,前身为ICTCLAS词法分析系统.
2、词的分类和兼类
-
词的分类
开放类:像名词和动词这样的,具有大量成员,而且包含的词的数量不限定;
封闭类:介词、