本文给出了3760个问题,这些问题来自于广大网友对QuestionAnsweringSystem的测试。
在面对这些问题的时候,我们人类是怎么思考回答的呢?
对我们来说,回答这些问题是一个很自然甚至很简单的思考过程,可是我们却很难把我们的思考过程严格地描述清楚。我们从小到大,积累了很多的经验和知识,这些经验和知识来自我们的社会实践和学校学习。
我们所处的世界不是完美的,我们本身也不是完美的,人与人的相互交流也不是完美的,我们经常需要反复地沟通,尽管这样,有时候我们还是不能完全理解对方的意思,有可能是一方没说清楚,也有可能是另一方没有听明白。我们除了利用声音传递文字信息,我们还能通过他人的表情,语调等来判断对方传达的意思。更高级的是,我们还会使用幽默、反讽等各种手段。
我们如果想让计算机回答问题,那么我们就需要解决上面提出的问题,首先是要有一个模拟人类回答问题的思考过程,二是要有一个知识库来模拟人类个体积累了几十年的经验和知识,三是要设计算法从知识库中搜集并给出正确答案。
QuestionAnsweringSystem的思考过程如下:
1、判断问题类型(答案类型),当前使用模式匹配的方法,将来支持更多的方法,如朴素贝叶斯分类器。 2、提取问题关键词。 3、利用问题关键词搜索多种数据源,当前的数据源主要是人工标注的语料库、谷歌、百度。 4、从搜索结果中根据问题类型(答案类型)提取候选答案。 5、结合问题以及搜索结果对候选答案进行打分。 6、返回得分最高的TopN项候选答案。
搜索引擎是一个没有边界的数据源,所以适合用来做开放式人机问答系统,而人工标注的语料库一般是特定领域的知识系统,适合用来做特定领域的专家系统。
判断问题的类型以及从知识库中搜集并给出正确答案是QuestionAnsweringSystem的研究核心。目前仅支持5种问题类型(答案类型),不过在现有的架构基础上,只需要扩充问题类型以及知识库,就能取得不错的进展。
下面给出测试人机问答系统智能性的3760个问题,供大家参考,有兴趣的朋友可以加入QuestionAnsweringSystem一起开发,欢迎跟我联系交流合作。
由于ITEYE关键词限制,比如博客中不能包含“主 席”这个词,中间加了个空格就不认识了